Entstehung von Abstraktionen: Konzeptkodierungs- und Dekodierungsmechanismus für kontextbezogenes Lernen in Transformern

Zusammenfassung

Menschen destillieren komplexe Erfahrungen in grundlegende Abstraktionen, die schnelles Lernen und Anpassung ermöglichen. Ebenso zeigen autoregressive Transformer adaptives Lernen durch In-Context Learning (ICL), was die Frage aufwirft, wie das geschieht. In diesem Paper schlagen wir einen Konzeptkodierungs-Dekodierungsmechanismus vor, um das ICL zu erklären, indem wir untersuchen, wie Transformer interne Abstraktionen in ihren Repräsentationen bilden und nutzen. Anhand synthetischer ICL-Aufgaben analysieren wir die Trainingsdynamik eines kleinen Transformers und berichten über das gleichzeitige Entstehen von Konzeptkodierung und -dekodierung. Während das Modell lernt, verschiedene latente Konzepte (z.B. "Das erste Nomen in einem Satz finden.") in unterschiedliche, trennbare Repräsentationen zu kodieren, baut es gleichzeitig bedingte Dekodierungsalgorithmen auf und verbessert seine ICL-Performance. Wir validieren die Existenz dieses Mechanismus in vortrainierten Modellen unterschiedlicher Größenordnungen (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Darüber hinaus zeigen wir durch mechanistische Interventionen und kontrolliertes Feintuning, dass die Qualität der Konzeptkodierung kausal mit der ICL-Performance zusammenhängt und diese vorhersagen kann. Unsere empirischen Erkenntnisse tragen dazu bei, das Verständnis der Erfolgs- und Fehlermodi großer Sprachmodelle über deren Repräsentationen zu verbessern.

English

Humans distill complex experiences into fundamental abstractions that enable rapid learning and adaptation. Similarly, autoregressive transformers exhibit adaptive learning through in-context learning (ICL), which begs the question of how. In this paper, we propose concept encoding-decoding mechanism to explain ICL by studying how transformers form and use internal abstractions in their representations. On synthetic ICL tasks, we analyze the training dynamics of a small transformer and report the coupled emergence of concept encoding and decoding. As the model learns to encode different latent concepts (e.g., ``Finding the first noun in a sentence.") into distinct, separable representations, it concureently builds conditional decoding algorithms and improve its ICL performance. We validate the existence of this mechanism across pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Further, through mechanistic interventions and controlled finetuning, we demonstrate that the quality of concept encoding is causally related and predictive of ICL performance. Our empirical insights shed light into better understanding the success and failure modes of large language models via their representations.

Entstehung von Abstraktionen: Konzeptkodierungs- und Dekodierungsmechanismus für kontextbezogenes Lernen in Transformern

Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

Zusammenfassung

Support