ChatPaper.aiChatPaper

Les Transformers Linéaires avec Fonctions de Noyau Apprenables sont de Meilleurs Modèles en Contexte

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

February 16, 2024
papers.authors: Yaroslav Aksenov, Nikita Balagansky, Sofia Maria Lo Cicero Vaina, Boris Shaposhnikov, Alexey Gorbatovski, Daniil Gavrilov
cs.AI

papers.abstract

Repousser les frontières des architectures sous-quadratiques pour les modèles de langage (LMs) est crucial dans le domaine en rapide évolution du traitement du langage naturel. Les innovations récentes, notamment les modèles à espace d'états, ont initialement été saluées pour surpasser les performances des Transformers dans les tâches de modélisation du langage. Cependant, ces modèles ont révélé des lacunes dans les capacités essentielles d'apprentissage en contexte (In-Context Learning) - un domaine où le Transformer excelle traditionnellement. Le modèle Based est apparu comme une solution hybride, combinant un Transformer linéaire avec un noyau inspiré du développement en série de Taylor des fonctions exponentielles, enrichi par des réseaux convolutifs. Reproduisant l'aptitude en contexte du Transformer, il est devenu un sérieux concurrent dans le domaine. Dans notre travail, nous présentons une modification unique et élégante du noyau Based qui amplifie ses capacités d'apprentissage en contexte, évaluées avec la tâche de rappel associatif multi-requêtes (Multi-Query Associative Recall) et le processus global de modélisation du langage, tel que démontré sur le jeu de données Pile.
English
Advancing the frontier of subquadratic architectures for Language Models (LMs) is crucial in the rapidly evolving field of natural language processing. Current innovations, including State Space Models, were initially celebrated for surpassing Transformer performance on language modeling tasks. However, these models have revealed deficiencies in essential In-Context Learning capabilities - a domain where the Transformer traditionally shines. The Based model emerged as a hybrid solution, blending a Linear Transformer with a kernel inspired by the Taylor expansion of exponential functions, augmented by convolutional networks. Mirroring the Transformer's in-context adeptness, it became a strong contender in the field. In our work, we present a singular, elegant alteration to the Based kernel that amplifies its In-Context Learning abilities evaluated with the Multi-Query Associative Recall task and overall language modeling process, as demonstrated on the Pile dataset.
PDF823December 15, 2024