ChatPaper.aiChatPaper

El Desplazamiento de Atención KV Mejora la Modelización del Lenguaje

KV Shifting Attention Enhances Language Modeling

November 29, 2024
Autores: Mingyu Xu, Wei Cheng, Bingning Wang, Weipeng Chen
cs.AI

Resumen

Los actuales modelos de lenguaje de gran tamaño se basan principalmente en transformadores de estructura de solo decodificación, que poseen grandes capacidades de aprendizaje en contexto (ICL). Se cree generalmente que la base importante de su capacidad de ICL es el mecanismo de cabezales de inducción, que requiere al menos dos capas de atención. Con el fin de implementar de manera más eficiente la capacidad de inducción del modelo, revisamos el mecanismo de cabezales de inducción y propusimos una atención de cambio de KV. Teóricamente demostramos que la atención de cambio de KV reduce los requisitos del modelo para la profundidad y amplitud del mecanismo de cabezales de inducción. Nuestros resultados experimentales demuestran que la atención de cambio de KV es beneficiosa para el aprendizaje de cabezales de inducción y modelado de lenguaje, lo que conduce a un mejor rendimiento o una convergencia más rápida desde modelos básicos hasta los modelos de pre-entrenamiento con más de 10 mil millones de parámetros.
English
The current large language models are mainly based on decode-only structure transformers, which have great in-context learning (ICL) capabilities. It is generally believed that the important foundation of its ICL capability is the induction heads mechanism, which requires at least two layers attention. In order to more efficiently implement the ability of the model's induction, we revisit the induction heads mechanism and proposed a KV shifting attention. We theoretically prove that the KV shifting attention reducing the model's requirements for the depth and width of the induction heads mechanism. Our experimental results demonstrate that KV shifting attention is beneficial to learning induction heads and language modeling, which lead to better performance or faster convergence from toy models to the pre-training models with more than 10 B parameters.

Summary

AI-Generated Summary

PDF96December 6, 2024