Повторяйте за мной: Трансформеры лучше моделей с пространством состояний в копировании
Repeat After Me: Transformers are Better than State Space Models at Copying
February 1, 2024
Авторы: Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach
cs.AI
Аннотация
Трансформеры являются доминирующей архитектурой для моделирования последовательностей, однако растет интерес к моделям, использующим фиксированный по размеру латентный вектор, который не зависит от длины последовательности. Мы называем такие модели "обобщенными моделями пространства состояний" (GSSM). В данной работе мы показываем, что хотя GSSM перспективны с точки зрения эффективности на этапе вывода, они уступают трансформерам в задачах, требующих копирования из входного контекста. Мы начинаем с теоретического анализа простой задачи копирования строк и доказываем, что двухслойный трансформер способен копировать строки экспоненциальной длины, тогда как GSSM принципиально ограничены своим фиксированным латентным состоянием. Экспериментально мы обнаруживаем, что трансформеры превосходят GSSM по эффективности и обобщаемости на синтетических задачах, требующих копирования контекста. Наконец, мы оцениваем предобученные большие языковые модели и обнаруживаем, что модели на основе трансформеров значительно превосходят модели пространства состояний в задачах копирования и извлечения информации из контекста. В совокупности эти результаты указывают на фундаментальный разрыв между трансформерами и GSSM в задачах, представляющих практический интерес.
English
Transformers are the dominant architecture for sequence modeling, but there
is growing interest in models that use a fixed-size latent state that does not
depend on the sequence length, which we refer to as "generalized state space
models" (GSSMs). In this paper we show that while GSSMs are promising in terms
of inference-time efficiency, they are limited compared to transformer models
on tasks that require copying from the input context. We start with a
theoretical analysis of the simple task of string copying and prove that a two
layer transformer can copy strings of exponential length while GSSMs are
fundamentally limited by their fixed-size latent state. Empirically, we find
that transformers outperform GSSMs in terms of efficiency and generalization on
synthetic tasks that require copying the context. Finally, we evaluate
pretrained large language models and find that transformer models dramatically
outperform state space models at copying and retrieving information from
context. Taken together, these results suggest a fundamental gap between
transformers and GSSMs on tasks of practical interest.