Next: Bibliography Up: L'apprendimento Previous: Il Perceptrone

The Continuos Time Limit

Possiamo scrivere la regola di apprendimento del perceptrone in maniera più compatta, sempre assumendo $x_{0}=1\forall
x\in\Omega$:
\begin{displaymath}
Scelto\quad a \quad caso\quad un\quad x\in\Omega,\qquad \Delta
J=\epsilon x[M(x)-\theta(J\cdot x)]
\end{displaymath} (12)

In questo modo non abbiamo bisogno di verificare che $M(x)=\theta(J\cdot x)$. Abbiamo inserito il fattore $\epsilon$ che controlla quanto la modifica influisce sul cambiamento di $J$. In particolare, il teorema di convergenza continua a valere.
Fino a questo momento abbiamo avuto a che fare con il tempo "discretizzato", vedremo ora brevemente come si può affrontare l'apprendimento del perceptrone in termini di tempo continuo; pertanto giungeremo ad una equazione differenziale che viene considerata più conveniente del processo iterativo sopra descritto, in riferimento al processo di apprendimento.

Misuriamo ora il tempo con l'unità $\epsilon$, quindi:

\begin{displaymath}
\Delta J=J(t+\epsilon)-J(t)
\end{displaymath}

Dopo un piccolo numero $n\ll\epsilon^{-1}$, di iterazioni, il vettore $J$ sarà cambiato solo di poco,

\begin{displaymath}
J(t+n\epsilon)=J(t)+o(n\epsilon)
\end{displaymath}

Per gli stadi intermedi $l<n$ possiamo quindi scrivere:

\begin{displaymath}
J(t+l\epsilon+\epsilon)-J(t+l\epsilon)=\epsilon
x_{l}[M(x_{l})-\theta(J(t)\cdot x_{l}+o(n\epsilon))]
\end{displaymath}

Dove $x_{l}$ è il vettore input al passo $l$. Sommiamo i due termini per $l=0,...,n-1$:

\begin{displaymath}
\sum^{n-1}_{l=0}J(t+l\epsilon+\epsilon)-\sum^{n-1}_{l=0}J(t...
...1}_{l=0}x_{l}[M(x_{l})-\theta(J(t)\cdot
x_{l}+o(n\epsilon))]
\end{displaymath}

da cui:

\begin{displaymath}
\frac{J(t+n\epsilon)-J(t)}{n\epsilon}=\frac{1}{n}
\sum^{n-1}_{l=0}x_{l}[M(x_{l})-\theta(J(t)\cdot
x_{l}+o(n\epsilon))]
\end{displaymath}

Facendo il limite per $n\epsilon\rightarrow 0$ e $n\rightarrow\infty$ otteniamo:
\begin{displaymath}
\frac{d}{dt}J(t)=\langle x[M(x_{l}-\theta(J(t)\cdot
x)]\rangle_{\Omega}
\end{displaymath} (13)

dove:
$\langle f(x)\rangle_{\Omega}=\sum_{x\in\Omega}p(x)f(x)$
$p(x)=$ probabilità che il vettore $x$ venga estratto durante il processo di apprendimento.
Anche per questa descrizione del processo di apprendimento vale il teorema di convergenza che ora non dimostriamo:
Teorema: Se il compito $M$ è linearmente separabile, allora l'equazione (13) converge ad un punto fisso $J$ tale che $\theta(J\cdot x)=M(x)\forall x\in
\Omega$.
next up previous
Next: Bibliography Up: L'apprendimento Previous: Il Perceptrone
Michele Cerulli 2000-10-29
Google