ChatPaper.aiChatPaper

Repite después de mí: Los Transformers son mejores que los modelos de espacio de estados para copiar

Repeat After Me: Transformers are Better than State Space Models at Copying

February 1, 2024
Autores: Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach
cs.AI

Resumen

Los Transformers son la arquitectura dominante para el modelado de secuencias, pero existe un creciente interés en modelos que utilizan un estado latente de tamaño fijo que no depende de la longitud de la secuencia, a los que nos referimos como "modelos de espacio de estado generalizados" (GSSMs, por sus siglas en inglés). En este artículo demostramos que, aunque los GSSMs son prometedores en términos de eficiencia durante la inferencia, están limitados en comparación con los modelos Transformer en tareas que requieren copiar información del contexto de entrada. Comenzamos con un análisis teórico de la tarea simple de copiar cadenas de texto y probamos que un Transformer de dos capas puede copiar cadenas de longitud exponencial, mientras que los GSSMs están fundamentalmente limitados por su estado latente de tamaño fijo. Empíricamente, encontramos que los Transformers superan a los GSSMs en términos de eficiencia y generalización en tareas sintéticas que requieren copiar el contexto. Finalmente, evaluamos modelos de lenguaje preentrenados a gran escala y encontramos que los modelos Transformer superan significativamente a los modelos de espacio de estado en la tarea de copiar y recuperar información del contexto. En conjunto, estos resultados sugieren una brecha fundamental entre los Transformers y los GSSMs en tareas de interés práctico.
English
Transformers are the dominant architecture for sequence modeling, but there is growing interest in models that use a fixed-size latent state that does not depend on the sequence length, which we refer to as "generalized state space models" (GSSMs). In this paper we show that while GSSMs are promising in terms of inference-time efficiency, they are limited compared to transformer models on tasks that require copying from the input context. We start with a theoretical analysis of the simple task of string copying and prove that a two layer transformer can copy strings of exponential length while GSSMs are fundamentally limited by their fixed-size latent state. Empirically, we find that transformers outperform GSSMs in terms of efficiency and generalization on synthetic tasks that require copying the context. Finally, we evaluate pretrained large language models and find that transformer models dramatically outperform state space models at copying and retrieving information from context. Taken together, these results suggest a fundamental gap between transformers and GSSMs on tasks of practical interest.
PDF254December 15, 2024