ChatPaper.aiChatPaper

Transformadores Lineales con Funciones de Kernel Aprendibles son Mejores Modelos en Contexto

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

February 16, 2024
Autores: Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov
cs.AI

Resumen

Avanzar en la frontera de las arquitecturas subcuadráticas para Modelos de Lenguaje (ML) es crucial en el campo en rápida evolución del procesamiento del lenguaje natural. Las innovaciones actuales, incluidos los Modelos de Espacio de Estados, fueron inicialmente celebrados por superar el rendimiento del Transformer en tareas de modelado del lenguaje. Sin embargo, estos modelos han revelado deficiencias en capacidades esenciales de Aprendizaje en Contexto, un dominio en el que el Transformer tradicionalmente destaca. El modelo Based surgió como una solución híbrida, combinando un Transformer Lineal con un kernel inspirado en la expansión de Taylor de funciones exponenciales, aumentado por redes convolucionales. Al reflejar la destreza en contexto del Transformer, se convirtió en un fuerte contendiente en el campo. En nuestro trabajo, presentamos una alteración singular y elegante al kernel Based que amplifica sus capacidades de Aprendizaje en Contexto, evaluadas con la tarea de Recuerdo Asociativo de Múltiples Consultas y el proceso general de modelado del lenguaje, como se demuestra en el conjunto de datos Pile.
English
Advancing the frontier of subquadratic architectures for Language Models (LMs) is crucial in the rapidly evolving field of natural language processing. Current innovations, including State Space Models, were initially celebrated for surpassing Transformer performance on language modeling tasks. However, these models have revealed deficiencies in essential In-Context Learning capabilities - a domain where the Transformer traditionally shines. The Based model emerged as a hybrid solution, blending a Linear Transformer with a kernel inspired by the Taylor expansion of exponential functions, augmented by convolutional networks. Mirroring the Transformer's in-context adeptness, it became a strong contender in the field. In our work, we present a singular, elegant alteration to the Based kernel that amplifies its In-Context Learning abilities evaluated with the Multi-Query Associative Recall task and overall language modeling process, as demonstrated on the Pile dataset.
PDF823December 15, 2024