Persi nella Retropropagazione: La Testa LM è un Collo di Bottiglia del Gradiente

Abstract

L'ultimo strato dei modelli linguistici neurali (LM) proietta le caratteristiche di output di dimensione D in logit di dimensione V, la dimensione del vocabolario, dove solitamente D << V. È noto che questa discrepanza aumenta i rischi di limitata espressività nei LM neurali, creando il cosiddetto collo di bottiglia del softmax. Dimostriamo che il collo di bottiglia del softmax non è solo un collo di bottiglia dell'espressività, ma anche un collo di bottiglia dell'ottimizzazione. La retropropagazione di gradienti V-dimensionali attraverso uno strato lineare di rango D induce una compressione inevitabile, che altera il feedback di addestramento fornito alla stragrande maggioranza dei parametri. Presentiamo un'analisi teorica di questo fenomeno e misuriamo empiricamente che il 95-99% della norma del gradiente è soppresso dallo strato di output, risultando in direzioni di aggiornamento fortemente subottimali. Conduciamo esperimenti di pre-addestramento controllati che mostrano come il collo di bottiglia del gradiente renda imparabili pattern banali e influisca drasticamente sulla dinamica di addestramento degli LLM. Sosteniamo che questo difetto intrinseco contribuisce alle inefficienze di addestramento su larga scala indipendentemente dall'architettura del modello, e solleva la necessità di nuovi progetti per la testa (head) dei LM.

English

The last layer of neural language models (LMs) projects output features of dimension D to logits in dimension V, the size of the vocabulary, where usually D ll V. This mismatch is known to raise risks of limited expressivity in neural LMs, creating a so-called softmax bottleneck. We show the softmax bottleneck is not only an expressivity bottleneck but also an optimization bottleneck. Backpropagating V-dimensional gradients through a rank-D linear layer induces unavoidable compression, which alters the training feedback provided to the vast majority of the parameters. We present a theoretical analysis of this phenomenon and measure empirically that 95-99% of the gradient norm is suppressed by the output layer, resulting in vastly suboptimal update directions. We conduct controlled pretraining experiments showing that the gradient bottleneck makes trivial patterns unlearnable, and drastically affects the training dynamics of LLMs. We argue that this inherent flaw contributes to training inefficiencies at scale independently of the model architecture, and raises the need for new LM head designs.

Persi nella Retropropagazione: La Testa LM è un Collo di Bottiglia del Gradiente

Lost in Backpropagation: The LM Head is a Gradient Bottleneck

Abstract

Support