ChatPaper.aiChatPaper

I Transformer apprendono attraverso un incremento graduale del rango.

Transformers learn through gradual rank increase

June 12, 2023
Autori: Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua Susskind
cs.AI

Abstract

Identifichiamo dinamiche di apprendimento incrementale nei transformer, dove la differenza tra i pesi addestrati e quelli iniziali aumenta progressivamente in rango. Dimostriamo rigorosamente che ciò si verifica sotto le ipotesi semplificative di matrici di peso diagonali e inizializzazione ridotta. I nostri esperimenti supportano la teoria e mostrano inoltre che il fenomeno può verificarsi nella pratica anche senza le ipotesi semplificative.
English
We identify incremental learning dynamics in transformers, where the difference between trained and initial weights progressively increases in rank. We rigorously prove this occurs under the simplifying assumptions of diagonal weight matrices and small initialization. Our experiments support the theory and also show that phenomenon can occur in practice without the simplifying assumptions.
PDF90February 8, 2026