Herhaal Na Mij: Transformers zijn Beter dan State Space Modellen bij het Kopiëren
Repeat After Me: Transformers are Better than State Space Models at Copying
February 1, 2024
Auteurs: Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach
cs.AI
Samenvatting
Transformers zijn de dominante architectuur voor sequentiemodellering, maar er is een groeiende interesse in modellen die gebruikmaken van een latente toestand met een vaste grootte die niet afhankelijk is van de sequentielengte, wat we "gegeneraliseerde toestandsruimtemodellen" (GSSMs) noemen. In dit artikel laten we zien dat hoewel GSSMs veelbelovend zijn wat betreft efficiëntie tijdens inferentie, ze beperkt zijn in vergelijking met transformer-modellen bij taken die het kopiëren van de invoercontext vereisen. We beginnen met een theoretische analyse van de eenvoudige taak van het kopiëren van strings en bewijzen dat een transformer met twee lagen strings van exponentiële lengte kan kopiëren, terwijl GSSMs fundamenteel beperkt worden door hun latentetoestandsgrootte. Empirisch vinden we dat transformers GSSMs overtreffen wat betreft efficiëntie en generalisatie op synthetische taken die het kopiëren van de context vereisen. Tot slot evalueren we vooraf getrainde grote taalmodellen en ontdekken dat transformer-modellen toestandsruimtemodellen dramatisch overtreffen bij het kopiëren en ophalen van informatie uit de context. Samen genomen suggereren deze resultaten een fundamenteel verschil tussen transformers en GSSMs bij taken van praktisch belang.
English
Transformers are the dominant architecture for sequence modeling, but there
is growing interest in models that use a fixed-size latent state that does not
depend on the sequence length, which we refer to as "generalized state space
models" (GSSMs). In this paper we show that while GSSMs are promising in terms
of inference-time efficiency, they are limited compared to transformer models
on tasks that require copying from the input context. We start with a
theoretical analysis of the simple task of string copying and prove that a two
layer transformer can copy strings of exponential length while GSSMs are
fundamentally limited by their fixed-size latent state. Empirically, we find
that transformers outperform GSSMs in terms of efficiency and generalization on
synthetic tasks that require copying the context. Finally, we evaluate
pretrained large language models and find that transformer models dramatically
outperform state space models at copying and retrieving information from
context. Taken together, these results suggest a fundamental gap between
transformers and GSSMs on tasks of practical interest.