Aparición de Abstracciones: Mecanismo de Codificación y Decodificación de Conceptos para el Aprendizaje en Contexto en Transformadores

Resumen

Los humanos destilan experiencias complejas en abstracciones fundamentales que permiten un aprendizaje y adaptación rápidos. De manera similar, los transformadores autoregresivos exhiben aprendizaje adaptativo a través del aprendizaje en contexto (ICL), lo que plantea la pregunta de cómo. En este documento, proponemos un mecanismo de codificación-decodificación de conceptos para explicar el ICL estudiando cómo los transformadores forman y utilizan abstracciones internas en sus representaciones. En tareas sintéticas de ICL, analizamos la dinámica de entrenamiento de un pequeño transformador y reportamos la aparición conjunta de la codificación y decodificación de conceptos. A medida que el modelo aprende a codificar diferentes conceptos latentes (por ejemplo, "Encontrar el primer sustantivo en una oración.") en representaciones distintas y separables, simultáneamente construye algoritmos de decodificación condicional y mejora su rendimiento en ICL. Validamos la existencia de este mecanismo en modelos preentrenados de diferentes escalas (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Además, a través de intervenciones mecanísticas y ajustes controlados, demostramos que la calidad de la codificación de conceptos está causalmente relacionada y es predictiva del rendimiento en ICL. Nuestras percepciones empíricas arrojan luz sobre una mejor comprensión de los modos de éxito y fracaso de los grandes modelos de lenguaje a través de sus representaciones.

English

Humans distill complex experiences into fundamental abstractions that enable rapid learning and adaptation. Similarly, autoregressive transformers exhibit adaptive learning through in-context learning (ICL), which begs the question of how. In this paper, we propose concept encoding-decoding mechanism to explain ICL by studying how transformers form and use internal abstractions in their representations. On synthetic ICL tasks, we analyze the training dynamics of a small transformer and report the coupled emergence of concept encoding and decoding. As the model learns to encode different latent concepts (e.g., ``Finding the first noun in a sentence.") into distinct, separable representations, it concureently builds conditional decoding algorithms and improve its ICL performance. We validate the existence of this mechanism across pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Further, through mechanistic interventions and controlled finetuning, we demonstrate that the quality of concept encoding is causally related and predictive of ICL performance. Our empirical insights shed light into better understanding the success and failure modes of large language models via their representations.

Aparición de Abstracciones: Mecanismo de Codificación y Decodificación de Conceptos para el Aprendizaje en Contexto en Transformadores

Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

Resumen

Support