Aparición de Abstracciones: Mecanismo de Codificación y Decodificación de Conceptos para el Aprendizaje en Contexto en Transformadores
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers
December 16, 2024
Autores: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal
cs.AI
Resumen
Los humanos destilan experiencias complejas en abstracciones fundamentales que permiten un aprendizaje y adaptación rápidos. De manera similar, los transformadores autoregresivos exhiben aprendizaje adaptativo a través del aprendizaje en contexto (ICL), lo que plantea la pregunta de cómo. En este documento, proponemos un mecanismo de codificación-decodificación de conceptos para explicar el ICL estudiando cómo los transformadores forman y utilizan abstracciones internas en sus representaciones. En tareas sintéticas de ICL, analizamos la dinámica de entrenamiento de un pequeño transformador y reportamos la aparición conjunta de la codificación y decodificación de conceptos. A medida que el modelo aprende a codificar diferentes conceptos latentes (por ejemplo, "Encontrar el primer sustantivo en una oración.") en representaciones distintas y separables, simultáneamente construye algoritmos de decodificación condicional y mejora su rendimiento en ICL. Validamos la existencia de este mecanismo en modelos preentrenados de diferentes escalas (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Además, a través de intervenciones mecanísticas y ajustes controlados, demostramos que la calidad de la codificación de conceptos está causalmente relacionada y es predictiva del rendimiento en ICL. Nuestras percepciones empíricas arrojan luz sobre una mejor comprensión de los modos de éxito y fracaso de los grandes modelos de lenguaje a través de sus representaciones.
English
Humans distill complex experiences into fundamental abstractions that enable
rapid learning and adaptation. Similarly, autoregressive transformers exhibit
adaptive learning through in-context learning (ICL), which begs the question of
how. In this paper, we propose concept encoding-decoding mechanism to
explain ICL by studying how transformers form and use internal abstractions in
their representations. On synthetic ICL tasks, we analyze the training dynamics
of a small transformer and report the coupled emergence of concept encoding and
decoding. As the model learns to encode different latent concepts (e.g.,
``Finding the first noun in a sentence.") into distinct, separable
representations, it concureently builds conditional decoding algorithms and
improve its ICL performance. We validate the existence of this mechanism across
pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B).
Further, through mechanistic interventions and controlled finetuning, we
demonstrate that the quality of concept encoding is causally related and
predictive of ICL performance. Our empirical insights shed light into better
understanding the success and failure modes of large language models via their
representations.Summary
AI-Generated Summary