ChatPaper.aiChatPaper

Transformadores Lineares com Funções de Kernel Aprendíveis são Melhores Modelos In-Contexto

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

February 16, 2024
Autores: Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov
cs.AI

Resumo

Avançar a fronteira das arquiteturas subquadráticas para Modelos de Linguagem (MLs) é crucial no campo em rápida evolução do processamento de linguagem natural. Inovações recentes, incluindo os Modelos de Espaço de Estados, foram inicialmente celebrados por superar o desempenho dos Transformers em tarefas de modelagem de linguagem. No entanto, esses modelos revelaram deficiências em capacidades essenciais de Aprendizado em Contexto - um domínio onde o Transformer tradicionalmente se destaca. O modelo Based surgiu como uma solução híbrida, combinando um Transformer Linear com um kernel inspirado na expansão de Taylor de funções exponenciais, aprimorado por redes convolucionais. Espelhando a habilidade em contexto do Transformer, ele se tornou um forte concorrente no campo. Em nosso trabalho, apresentamos uma alteração singular e elegante ao kernel do Based que amplifica suas habilidades de Aprendizado em Contexto, avaliadas com a tarefa de Recuperação Associativa de Múltiplas Consultas e o processo geral de modelagem de linguagem, conforme demonstrado no conjunto de dados The Pile.
English
Advancing the frontier of subquadratic architectures for Language Models (LMs) is crucial in the rapidly evolving field of natural language processing. Current innovations, including State Space Models, were initially celebrated for surpassing Transformer performance on language modeling tasks. However, these models have revealed deficiencies in essential In-Context Learning capabilities - a domain where the Transformer traditionally shines. The Based model emerged as a hybrid solution, blending a Linear Transformer with a kernel inspired by the Taylor expansion of exponential functions, augmented by convolutional networks. Mirroring the Transformer's in-context adeptness, it became a strong contender in the field. In our work, we present a singular, elegant alteration to the Based kernel that amplifies its In-Context Learning abilities evaluated with the Multi-Query Associative Recall task and overall language modeling process, as demonstrated on the Pile dataset.
PDF813February 8, 2026