LSTM:t ratkaisevat ongelman käyttämällä ainutlaatuista additiivinen gradienttirakennetta, joka sisältää suoran pääsyn unohtamisportin aktivointiin, jolloin verkko voi kannustaa virhegradientin haluttua toimintaa käyttämällä säännöllisiä porttien päivityksiä. jokaisessa oppimisprosessin aikavaiheessa.
Miten LSTM ratkaisee räjähtävän gradientin?
Hyvin lyhyt vastaus: LSTM erottaa solun tilan (merkitty tyypillisesti c:llä) ja piilotetun kerroksen/ulostulon (merkitty tavallisesti h:lla) ja tekee vain lisäpäivityksiä c:lle, mikä tekee c:n muistoista vakaampia. Siten gradientti, joka kulkee c:n läpi, pysyy ja sitä on vaikea kadota (tämän vuoksi kokonaisgradientti on vaikea hävitä).
Kuinka katoava gradienttiongelma voidaan ratkaista?
Ratkaisut: Yksinkertaisin ratkaisu on käyttää muita aktivointitoimintoja, kuten ReLU, joka ei aiheuta pientä johdannaista. Jäännösverkot ovat toinen ratkaisu, koska ne tarjoavat jäännösyhteydet suoraan aikaisempiin kerroksiin.
Mitä ongelmaa LSTM ratkaisee?
LSTMs. LSTM (lyhenne sanoista pitkä lyhytaikainen muisti) ratkaisee ensisijaisesti häivyttävän gradientin ongelman backpropagationissa. LSTM:t käyttävät avainnusmekanismia, joka ohjaa memoisointiprosessia. LSTM:issä olevia tietoja voidaan tallentaa, kirjoittaa tai lukea porttien kautta, jotka avautuvat ja sulkeutuvat.
Miksi LSTM:t estävät k altevuuksiasi katoamasta näkymää takaosaan?
Syy tähän on se, että tämän jatkuvan virhevirran pakottamiseksi gradienttilaskenta typistettiin, jotta se ei virtaisi takaisin tulo- tai ehdokasportteihin.