Repita Comigo: Transformers são Melhores que Modelos de Espaço de Estados em Tarefas de Cópia
Repeat After Me: Transformers are Better than State Space Models at Copying
February 1, 2024
Autores: Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach
cs.AI
Resumo
Transformers são a arquitetura dominante para modelagem de sequências, mas há um interesse crescente em modelos que utilizam um estado latente de tamanho fixo que não depende do comprimento da sequência, os quais chamamos de "modelos de espaço de estado generalizados" (GSSMs, na sigla em inglês). Neste artigo, mostramos que, embora os GSSMs sejam promissores em termos de eficiência no tempo de inferência, eles são limitados em comparação com os modelos transformers em tarefas que exigem a cópia do contexto de entrada. Começamos com uma análise teórica da tarefa simples de cópia de strings e provamos que um transformer de duas camadas pode copiar strings de comprimento exponencial, enquanto os GSSMs são fundamentalmente limitados pelo seu estado latente de tamanho fixo. Empiricamente, descobrimos que os transformers superam os GSSMs em termos de eficiência e generalização em tarefas sintéticas que exigem a cópia do contexto. Por fim, avaliamos grandes modelos de linguagem pré-treinados e constatamos que os modelos transformers superam dramaticamente os modelos de espaço de estado na cópia e recuperação de informações do contexto. Em conjunto, esses resultados sugerem uma lacuna fundamental entre transformers e GSSMs em tarefas de interesse prático.
English
Transformers are the dominant architecture for sequence modeling, but there
is growing interest in models that use a fixed-size latent state that does not
depend on the sequence length, which we refer to as "generalized state space
models" (GSSMs). In this paper we show that while GSSMs are promising in terms
of inference-time efficiency, they are limited compared to transformer models
on tasks that require copying from the input context. We start with a
theoretical analysis of the simple task of string copying and prove that a two
layer transformer can copy strings of exponential length while GSSMs are
fundamentally limited by their fixed-size latent state. Empirically, we find
that transformers outperform GSSMs in terms of efficiency and generalization on
synthetic tasks that require copying the context. Finally, we evaluate
pretrained large language models and find that transformer models dramatically
outperform state space models at copying and retrieving information from
context. Taken together, these results suggest a fundamental gap between
transformers and GSSMs on tasks of practical interest.