Transformers leren door geleidelijke toename in rang.

Samenvatting

We identificeren incrementele leer dynamieken in transformers, waarbij het verschil tussen getrainde en initiële gewichten progressief in rang toeneemt. We bewijzen dit rigoureus onder de vereenvoudigende aannames van diagonale gewichtsmatrices en kleine initialisatie. Onze experimenten ondersteunen de theorie en tonen ook aan dat dit fenomeen in de praktijk kan optreden zonder de vereenvoudigende aannames.

English

We identify incremental learning dynamics in transformers, where the difference between trained and initial weights progressively increases in rank. We rigorously prove this occurs under the simplifying assumptions of diagonal weight matrices and small initialization. Our experiments support the theory and also show that phenomenon can occur in practice without the simplifying assumptions.

Transformers leren door geleidelijke toename in rang.

Transformers learn through gradual rank increase

Samenvatting

Support