Transformadores Lineales con Funciones de Kernel Aprendibles son Mejores Modelos en ContextoLinear Transformers with Learnable Kernel Functions are Better
In-Context Models
Avanzar en la frontera de las arquitecturas subcuadráticas para Modelos de Lenguaje (ML) es crucial en el campo en rápida evolución del procesamiento del lenguaje natural. Las innovaciones actuales, incluidos los Modelos de Espacio de Estados, fueron inicialmente celebrados por superar el rendimiento del Transformer en tareas de modelado del lenguaje. Sin embargo, estos modelos han revelado deficiencias en capacidades esenciales de Aprendizaje en Contexto, un dominio en el que el Transformer tradicionalmente destaca. El modelo Based surgió como una solución híbrida, combinando un Transformer Lineal con un kernel inspirado en la expansión de Taylor de funciones exponenciales, aumentado por redes convolucionales. Al reflejar la destreza en contexto del Transformer, se convirtió en un fuerte contendiente en el campo. En nuestro trabajo, presentamos una alteración singular y elegante al kernel Based que amplifica sus capacidades de Aprendizaje en Contexto, evaluadas con la tarea de Recuerdo Asociativo de Múltiples Consultas y el proceso general de modelado del lenguaje, como se demuestra en el conjunto de datos Pile.