ChatPaper.aiChatPaper

O Deslocamento de Chave (KV) Aprimora a Modelagem de Linguagem.

KV Shifting Attention Enhances Language Modeling

November 29, 2024
Autores: Mingyu Xu, Wei Cheng, Bingning Wang, Weipeng Chen
cs.AI

Resumo

Os atuais grandes modelos de linguagem são principalmente baseados em transformadores com estrutura apenas de decodificação, que possuem ótimas capacidades de aprendizado em contexto (ICL). Acredita-se geralmente que a base importante de sua capacidade de ICL seja o mecanismo de cabeçalhos de indução, que requer pelo menos duas camadas de atenção. Para implementar de forma mais eficiente a capacidade de indução do modelo, revisitamos o mecanismo de cabeçalhos de indução e propusemos uma atenção de deslocamento KV. Demonstramos teoricamente que a atenção de deslocamento KV reduz os requisitos do modelo para a profundidade e largura do mecanismo de cabeçalhos de indução. Nossos resultados experimentais demonstram que a atenção de deslocamento KV é benéfica para o aprendizado de cabeçalhos de indução e modelagem de linguagem, o que resulta em melhor desempenho ou convergência mais rápida, desde modelos simples até modelos de pré-treinamento com mais de 10 bilhões de parâmetros.
English
The current large language models are mainly based on decode-only structure transformers, which have great in-context learning (ICL) capabilities. It is generally believed that the important foundation of its ICL capability is the induction heads mechanism, which requires at least two layers attention. In order to more efficiently implement the ability of the model's induction, we revisit the induction heads mechanism and proposed a KV shifting attention. We theoretically prove that the KV shifting attention reducing the model's requirements for the depth and width of the induction heads mechanism. Our experimental results demonstrate that KV shifting attention is beneficial to learning induction heads and language modeling, which lead to better performance or faster convergence from toy models to the pre-training models with more than 10 B parameters.

Summary

AI-Generated Summary

PDF96December 6, 2024