Oltre le leggi di scala: comprendere le prestazioni dei Transformer con la memoria associativa
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory
May 14, 2024
Autori: Xueyan Niu, Bo Bai, Lei Deng, Wei Han
cs.AI
Abstract
Aumentare le dimensioni di un modello Transformer non sempre porta a un miglioramento delle prestazioni. Questo fenomeno non può essere spiegato dalle leggi di scala empiriche. Inoltre, una migliore capacità di generalizzazione si verifica quando il modello memorizza i campioni di addestramento. Presentiamo un quadro teorico che getta luce sul processo di memorizzazione e sulle dinamiche delle prestazioni dei modelli linguistici basati su Transformer. Modelliamo il comportamento dei Transformer con memorie associative utilizzando reti di Hopfield, in modo che ogni blocco del Transformer conduca effettivamente una ricerca approssimata del vicino più prossimo. Sulla base di ciò, progettiamo una funzione di energia analoga a quella nella moderna rete di Hopfield continua, che fornisce una spiegazione approfondita del meccanismo di attenzione. Utilizzando la tecnica di maggiorazione-minimizzazione, costruiamo una funzione di energia globale che cattura l'architettura stratificata del Transformer. In condizioni specifiche, dimostriamo che la perdita di entropia incrociata minima raggiungibile è limitata inferiormente da una costante approssimativamente uguale a 1. Sosteniamo i nostri risultati teorici conducendo esperimenti con GPT-2 su varie dimensioni dei dati, nonché addestrando Transformer standard su un dataset di 2M token.
English
Increasing the size of a Transformer model does not always lead to enhanced
performance. This phenomenon cannot be explained by the empirical scaling laws.
Furthermore, improved generalization ability occurs as the model memorizes the
training samples. We present a theoretical framework that sheds light on the
memorization process and performance dynamics of transformer-based language
models. We model the behavior of Transformers with associative memories using
Hopfield networks, such that each transformer block effectively conducts an
approximate nearest-neighbor search. Based on this, we design an energy
function analogous to that in the modern continuous Hopfield network which
provides an insightful explanation for the attention mechanism. Using the
majorization-minimization technique, we construct a global energy function that
captures the layered architecture of the Transformer. Under specific
conditions, we show that the minimum achievable cross-entropy loss is bounded
from below by a constant approximately equal to 1. We substantiate our
theoretical results by conducting experiments with GPT-2 on various data sizes,
as well as training vanilla Transformers on a dataset of 2M tokens.