Entstehung von Abstraktionen: Konzeptkodierungs- und Dekodierungsmechanismus für kontextbezogenes Lernen in Transformern
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers
December 16, 2024
Autoren: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal
cs.AI
Zusammenfassung
Menschen destillieren komplexe Erfahrungen in grundlegende Abstraktionen, die schnelles Lernen und Anpassung ermöglichen. Ebenso zeigen autoregressive Transformer adaptives Lernen durch In-Context Learning (ICL), was die Frage aufwirft, wie das geschieht. In diesem Paper schlagen wir einen Konzeptkodierungs-Dekodierungsmechanismus vor, um das ICL zu erklären, indem wir untersuchen, wie Transformer interne Abstraktionen in ihren Repräsentationen bilden und nutzen. Anhand synthetischer ICL-Aufgaben analysieren wir die Trainingsdynamik eines kleinen Transformers und berichten über das gleichzeitige Entstehen von Konzeptkodierung und -dekodierung. Während das Modell lernt, verschiedene latente Konzepte (z.B. "Das erste Nomen in einem Satz finden.") in unterschiedliche, trennbare Repräsentationen zu kodieren, baut es gleichzeitig bedingte Dekodierungsalgorithmen auf und verbessert seine ICL-Performance. Wir validieren die Existenz dieses Mechanismus in vortrainierten Modellen unterschiedlicher Größenordnungen (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Darüber hinaus zeigen wir durch mechanistische Interventionen und kontrolliertes Feintuning, dass die Qualität der Konzeptkodierung kausal mit der ICL-Performance zusammenhängt und diese vorhersagen kann. Unsere empirischen Erkenntnisse tragen dazu bei, das Verständnis der Erfolgs- und Fehlermodi großer Sprachmodelle über deren Repräsentationen zu verbessern.
English
Humans distill complex experiences into fundamental abstractions that enable
rapid learning and adaptation. Similarly, autoregressive transformers exhibit
adaptive learning through in-context learning (ICL), which begs the question of
how. In this paper, we propose concept encoding-decoding mechanism to
explain ICL by studying how transformers form and use internal abstractions in
their representations. On synthetic ICL tasks, we analyze the training dynamics
of a small transformer and report the coupled emergence of concept encoding and
decoding. As the model learns to encode different latent concepts (e.g.,
``Finding the first noun in a sentence.") into distinct, separable
representations, it concureently builds conditional decoding algorithms and
improve its ICL performance. We validate the existence of this mechanism across
pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B).
Further, through mechanistic interventions and controlled finetuning, we
demonstrate that the quality of concept encoding is causally related and
predictive of ICL performance. Our empirical insights shed light into better
understanding the success and failure modes of large language models via their
representations.Summary
AI-Generated Summary