Les Transformers Linéaires avec Fonctions de Noyau Apprenables sont de Meilleurs Modèles en ContexteLinear Transformers with Learnable Kernel Functions are Better
In-Context Models
Repousser les frontières des architectures sous-quadratiques pour les modèles de langage (LMs) est crucial dans le domaine en rapide évolution du traitement du langage naturel. Les innovations récentes, notamment les modèles à espace d'états, ont initialement été saluées pour surpasser les performances des Transformers dans les tâches de modélisation du langage. Cependant, ces modèles ont révélé des lacunes dans les capacités essentielles d'apprentissage en contexte (In-Context Learning) - un domaine où le Transformer excelle traditionnellement. Le modèle Based est apparu comme une solution hybride, combinant un Transformer linéaire avec un noyau inspiré du développement en série de Taylor des fonctions exponentielles, enrichi par des réseaux convolutifs. Reproduisant l'aptitude en contexte du Transformer, il est devenu un sérieux concurrent dans le domaine. Dans notre travail, nous présentons une modification unique et élégante du noyau Based qui amplifie ses capacités d'apprentissage en contexte, évaluées avec la tâche de rappel associatif multi-requêtes (Multi-Query Associative Recall) et le processus global de modélisation du langage, tel que démontré sur le jeu de données Pile.