Cabezas de Atención en Modelos de Lenguaje a Gran Escala: Una Revisión
Attention Heads of Large Language Models: A Survey
September 5, 2024
Autores: Zifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li
cs.AI
Resumen
Desde la aparición de ChatGPT, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado en diversas tareas, pero siguen siendo en gran medida sistemas de caja negra. Como consecuencia, su desarrollo depende en gran medida de enfoques basados en datos, lo que limita la mejora del rendimiento mediante cambios en la arquitectura interna y las vías de razonamiento. Por ello, muchos investigadores han comenzado a explorar los posibles mecanismos internos de los LLMs, con el objetivo de identificar la esencia de sus cuellos de botella en el razonamiento, centrándose la mayoría de los estudios en las cabezas de atención. Nuestra encuesta tiene como objetivo arrojar luz sobre los procesos internos de razonamiento de los LLMs, centrándose en la interpretabilidad y los mecanismos subyacentes de las cabezas de atención. Primero, destilamos el proceso de pensamiento humano en un marco de cuatro etapas: Recuperación de Conocimiento, Identificación en Contexto, Razonamiento Latente y Preparación de la Expresión. Utilizando este marco, revisamos sistemáticamente la investigación existente para identificar y categorizar las funciones de cabezas de atención específicas. Además, resumimos las metodologías experimentales utilizadas para descubrir estas cabezas especiales, dividiéndolas en dos categorías: métodos sin modelado y métodos que requieren modelado. También, delineamos métodos de evaluación y puntos de referencia relevantes. Finalmente, discutimos las limitaciones de la investigación actual y proponemos varias direcciones futuras potenciales. Nuestra lista de referencias es de código abierto en https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.
English
Since the advent of ChatGPT, Large Language Models (LLMs) have excelled in
various tasks but remain largely as black-box systems. Consequently, their
development relies heavily on data-driven approaches, limiting performance
enhancement through changes in internal architecture and reasoning pathways. As
a result, many researchers have begun exploring the potential internal
mechanisms of LLMs, aiming to identify the essence of their reasoning
bottlenecks, with most studies focusing on attention heads. Our survey aims to
shed light on the internal reasoning processes of LLMs by concentrating on the
interpretability and underlying mechanisms of attention heads. We first distill
the human thought process into a four-stage framework: Knowledge Recalling,
In-Context Identification, Latent Reasoning, and Expression Preparation. Using
this framework, we systematically review existing research to identify and
categorize the functions of specific attention heads. Furthermore, we summarize
the experimental methodologies used to discover these special heads, dividing
them into two categories: Modeling-Free methods and Modeling-Required methods.
Also, we outline relevant evaluation methods and benchmarks. Finally, we
discuss the limitations of current research and propose several potential
future directions. Our reference list is open-sourced at
https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.