ChatPaper.aiChatPaper

Émergence des abstractions : Mécanisme d'encodage et de décodage des concepts pour l'apprentissage en contexte dans les Transformers

Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

December 16, 2024
Auteurs: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal
cs.AI

Résumé

Les humains distillent des expériences complexes en abstractions fondamentales qui permettent un apprentissage et une adaptation rapides. De manière similaire, les transformateurs autorégressifs présentent un apprentissage adaptatif à travers l'apprentissage en contexte (ICL), ce qui soulève la question du comment. Dans cet article, nous proposons un mécanisme d'encodage-décodage de concepts pour expliquer l'ICL en étudiant comment les transformateurs forment et utilisent des abstractions internes dans leurs représentations. Sur des tâches ICL synthétiques, nous analysons la dynamique d'entraînement d'un petit transformateur et rapportons l'émergence conjointe de l'encodage et du décodage de concepts. Alors que le modèle apprend à encoder différents concepts latents (par exemple, "Trouver le premier nom dans une phrase.") en des représentations distinctes et séparables, il construit simultanément des algorithmes de décodage conditionnel et améliore ses performances en ICL. Nous validons l'existence de ce mécanisme à travers des modèles pré-entraînés de différentes échelles (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). De plus, à travers des interventions mécanistes et un fine-tuning contrôlé, nous démontrons que la qualité de l'encodage de concepts est causalement liée et prédictive des performances en ICL. Nos observations empiriques éclairent une meilleure compréhension des modes de succès et d'échec des grands modèles de langage via leurs représentations.
English
Humans distill complex experiences into fundamental abstractions that enable rapid learning and adaptation. Similarly, autoregressive transformers exhibit adaptive learning through in-context learning (ICL), which begs the question of how. In this paper, we propose concept encoding-decoding mechanism to explain ICL by studying how transformers form and use internal abstractions in their representations. On synthetic ICL tasks, we analyze the training dynamics of a small transformer and report the coupled emergence of concept encoding and decoding. As the model learns to encode different latent concepts (e.g., ``Finding the first noun in a sentence.") into distinct, separable representations, it concureently builds conditional decoding algorithms and improve its ICL performance. We validate the existence of this mechanism across pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Further, through mechanistic interventions and controlled finetuning, we demonstrate that the quality of concept encoding is causally related and predictive of ICL performance. Our empirical insights shed light into better understanding the success and failure modes of large language models via their representations.

Summary

AI-Generated Summary

PDF152December 18, 2024