Répétez après moi : Les Transformers surpassent les modèles à espace d'états dans la tâche de copie.

papers.abstract

Les Transformers constituent l'architecture dominante pour la modélisation de séquences, mais il existe un intérêt croissant pour les modèles utilisant un état latent de taille fixe qui ne dépend pas de la longueur de la séquence, que nous appelons « modèles d’espace d’état généralisés » (GSSMs). Dans cet article, nous montrons que bien que les GSSMs soient prometteurs en termes d’efficacité lors de l’inférence, ils sont limités par rapport aux modèles de type Transformer pour les tâches nécessitant la copie du contexte d’entrée. Nous commençons par une analyse théorique de la tâche simple de copie de chaînes de caractères et prouvons qu’un Transformer à deux couches peut copier des chaînes de longueur exponentielle, tandis que les GSSMs sont fondamentalement limités par leur état latent de taille fixe. Empiriquement, nous constatons que les Transformers surpassent les GSSMs en termes d’efficacité et de généralisation sur des tâches synthétiques nécessitant la copie du contexte. Enfin, nous évaluons des modèles de langage pré-entraînés de grande taille et observons que les modèles de type Transformer surpassent de manière significative les modèles d’espace d’état pour la copie et la récupération d’informations à partir du contexte. Pris ensemble, ces résultats suggèrent un écart fondamental entre les Transformers et les GSSMs pour des tâches d’intérêt pratique.

English

Transformers are the dominant architecture for sequence modeling, but there is growing interest in models that use a fixed-size latent state that does not depend on the sequence length, which we refer to as "generalized state space models" (GSSMs). In this paper we show that while GSSMs are promising in terms of inference-time efficiency, they are limited compared to transformer models on tasks that require copying from the input context. We start with a theoretical analysis of the simple task of string copying and prove that a two layer transformer can copy strings of exponential length while GSSMs are fundamentally limited by their fixed-size latent state. Empirically, we find that transformers outperform GSSMs in terms of efficiency and generalization on synthetic tasks that require copying the context. Finally, we evaluate pretrained large language models and find that transformer models dramatically outperform state space models at copying and retrieving information from context. Taken together, these results suggest a fundamental gap between transformers and GSSMs on tasks of practical interest.

Répétez après moi : Les Transformers surpassent les modèles à espace d'états dans la tâche de copie.

Repeat After Me: Transformers are Better than State Space Models at Copying

papers.abstract

Support