Répétez après moi : Les Transformers surpassent les modèles à espace d'états dans la tâche de copie.
Repeat After Me: Transformers are Better than State Space Models at Copying
February 1, 2024
Auteurs: Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach
cs.AI
Résumé
Les Transformers constituent l'architecture dominante pour la modélisation de séquences, mais il existe un intérêt croissant pour les modèles utilisant un état latent de taille fixe qui ne dépend pas de la longueur de la séquence, que nous appelons « modèles d’espace d’état généralisés » (GSSMs). Dans cet article, nous montrons que bien que les GSSMs soient prometteurs en termes d’efficacité lors de l’inférence, ils sont limités par rapport aux modèles de type Transformer pour les tâches nécessitant la copie du contexte d’entrée. Nous commençons par une analyse théorique de la tâche simple de copie de chaînes de caractères et prouvons qu’un Transformer à deux couches peut copier des chaînes de longueur exponentielle, tandis que les GSSMs sont fondamentalement limités par leur état latent de taille fixe. Empiriquement, nous constatons que les Transformers surpassent les GSSMs en termes d’efficacité et de généralisation sur des tâches synthétiques nécessitant la copie du contexte. Enfin, nous évaluons des modèles de langage pré-entraînés de grande taille et observons que les modèles de type Transformer surpassent de manière significative les modèles d’espace d’état pour la copie et la récupération d’informations à partir du contexte. Pris ensemble, ces résultats suggèrent un écart fondamental entre les Transformers et les GSSMs pour des tâches d’intérêt pratique.
English
Transformers are the dominant architecture for sequence modeling, but there
is growing interest in models that use a fixed-size latent state that does not
depend on the sequence length, which we refer to as "generalized state space
models" (GSSMs). In this paper we show that while GSSMs are promising in terms
of inference-time efficiency, they are limited compared to transformer models
on tasks that require copying from the input context. We start with a
theoretical analysis of the simple task of string copying and prove that a two
layer transformer can copy strings of exponential length while GSSMs are
fundamentally limited by their fixed-size latent state. Empirically, we find
that transformers outperform GSSMs in terms of efficiency and generalization on
synthetic tasks that require copying the context. Finally, we evaluate
pretrained large language models and find that transformer models dramatically
outperform state space models at copying and retrieving information from
context. Taken together, these results suggest a fundamental gap between
transformers and GSSMs on tasks of practical interest.