Wiederhole nach mir: Transformer sind besser als State-Space-Modelle beim Kopieren
Repeat After Me: Transformers are Better than State Space Models at Copying
February 1, 2024
Autoren: Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach
cs.AI
Zusammenfassung
Transformer sind die dominierende Architektur für die Modellierung von Sequenzen, aber es gibt ein wachsendes Interesse an Modellen, die einen festen latenten Zustand verwenden, der nicht von der Sequenzlänge abhängt, was wir als "verallgemeinerte Zustandsraummodelle" (Generalized State Space Models, GSSMs) bezeichnen. In diesem Artikel zeigen wir, dass GSSMs zwar in Bezug auf die Effizienz zur Inferenzzeit vielversprechend sind, aber im Vergleich zu Transformer-Modellen bei Aufgaben, die das Kopieren aus dem Eingabekontext erfordern, eingeschränkt sind. Wir beginnen mit einer theoretischen Analyse der einfachen Aufgabe des String-Kopierens und beweisen, dass ein zweischichtiger Transformer Strings exponentieller Länge kopieren kann, während GSSMs durch ihren festen latenten Zustand grundsätzlich begrenzt sind. Empirisch stellen wir fest, dass Transformer GSSMs in Bezug auf Effizienz und Generalisierung bei synthetischen Aufgaben, die das Kopieren des Kontexts erfordern, übertreffen. Schließlich evaluieren wir vortrainierte große Sprachmodelle und stellen fest, dass Transformer-Modelle beim Kopieren und Abrufen von Informationen aus dem Kontext Zustandsraummodelle deutlich übertreffen. Zusammengenommen deuten diese Ergebnisse auf eine grundlegende Lücke zwischen Transformern und GSSMs bei praktisch relevanten Aufgaben hin.
English
Transformers are the dominant architecture for sequence modeling, but there
is growing interest in models that use a fixed-size latent state that does not
depend on the sequence length, which we refer to as "generalized state space
models" (GSSMs). In this paper we show that while GSSMs are promising in terms
of inference-time efficiency, they are limited compared to transformer models
on tasks that require copying from the input context. We start with a
theoretical analysis of the simple task of string copying and prove that a two
layer transformer can copy strings of exponential length while GSSMs are
fundamentally limited by their fixed-size latent state. Empirically, we find
that transformers outperform GSSMs in terms of efficiency and generalization on
synthetic tasks that require copying the context. Finally, we evaluate
pretrained large language models and find that transformer models dramatically
outperform state space models at copying and retrieving information from
context. Taken together, these results suggest a fundamental gap between
transformers and GSSMs on tasks of practical interest.