Oltre le leggi di scala: comprendere le prestazioni dei Transformer con la memoria associativa

Abstract

Aumentare le dimensioni di un modello Transformer non sempre porta a un miglioramento delle prestazioni. Questo fenomeno non può essere spiegato dalle leggi di scala empiriche. Inoltre, una migliore capacità di generalizzazione si verifica quando il modello memorizza i campioni di addestramento. Presentiamo un quadro teorico che getta luce sul processo di memorizzazione e sulle dinamiche delle prestazioni dei modelli linguistici basati su Transformer. Modelliamo il comportamento dei Transformer con memorie associative utilizzando reti di Hopfield, in modo che ogni blocco del Transformer conduca effettivamente una ricerca approssimata del vicino più prossimo. Sulla base di ciò, progettiamo una funzione di energia analoga a quella nella moderna rete di Hopfield continua, che fornisce una spiegazione approfondita del meccanismo di attenzione. Utilizzando la tecnica di maggiorazione-minimizzazione, costruiamo una funzione di energia globale che cattura l'architettura stratificata del Transformer. In condizioni specifiche, dimostriamo che la perdita di entropia incrociata minima raggiungibile è limitata inferiormente da una costante approssimativamente uguale a 1. Sosteniamo i nostri risultati teorici conducendo esperimenti con GPT-2 su varie dimensioni dei dati, nonché addestrando Transformer standard su un dataset di 2M token.

English

Increasing the size of a Transformer model does not always lead to enhanced performance. This phenomenon cannot be explained by the empirical scaling laws. Furthermore, improved generalization ability occurs as the model memorizes the training samples. We present a theoretical framework that sheds light on the memorization process and performance dynamics of transformer-based language models. We model the behavior of Transformers with associative memories using Hopfield networks, such that each transformer block effectively conducts an approximate nearest-neighbor search. Based on this, we design an energy function analogous to that in the modern continuous Hopfield network which provides an insightful explanation for the attention mechanism. Using the majorization-minimization technique, we construct a global energy function that captures the layered architecture of the Transformer. Under specific conditions, we show that the minimum achievable cross-entropy loss is bounded from below by a constant approximately equal to 1. We substantiate our theoretical results by conducting experiments with GPT-2 on various data sizes, as well as training vanilla Transformers on a dataset of 2M tokens.

Oltre le leggi di scala: comprendere le prestazioni dei Transformer con la memoria associativa

Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

Abstract

Support