Sobre el "Sesgo de Inducción" en los Modelos de Secuencias

Resumen

A pesar del notable éxito práctico de los modelos de lenguaje basados en transformadores, trabajos recientes han planteado dudas sobre su capacidad para realizar un seguimiento de estados. En particular, un creciente cuerpo de literatura ha demostrado esta limitación principalmente a través de fallos en la generalización fuera de distribución (FdD), como la extrapolación de longitud. En este trabajo, desplazamos la atención hacia las implicaciones dentro de la distribución de estas limitaciones. Realizamos un estudio experimental a gran escala de la eficiencia de datos de los transformadores y las redes neuronales recurrentes (RNN) en múltiples regímenes de supervisión. Descubrimos que la cantidad de datos de entrenamiento requerida por los transformadores crece mucho más rápidamente con el tamaño del espacio de estados y la longitud de la secuencia que en el caso de las RNN. Además, analizamos hasta qué punto los mecanismos de seguimiento de estados aprendidos se comparten entre diferentes longitudes de secuencia. Demostramos que los transformadores exhiben un uso compartido de pesos insignificante o incluso perjudicial entre longitudes, lo que indica que aprenden soluciones específicas para cada longitud de forma aislada. Por el contrario, los modelos recurrentes exhiben un aprendizaje amortizado efectivo al compartir pesos entre longitudes, lo que permite que los datos de una longitud de secuencia mejoren el rendimiento en otras. En conjunto, estos resultados demuestran que el seguimiento de estados sigue siendo un desafío fundamental para los transformadores, incluso cuando las distribuciones de entrenamiento y evaluación coinciden.

English

Despite the remarkable practical success of transformer-based language models, recent work has raised concerns about their ability to perform state tracking. In particular, a growing body of literature has shown this limitation primarily through failures in out-of-distribution (OOD) generalization, such as length extrapolation. In this work, we shift attention to the in-distribution implications of these limitations. We conduct a large-scale experimental study of the data efficiency of transformers and recurrent neural networks (RNNs) across multiple supervision regimes. We find that the amount of training data required by transformers grows much more rapidly with state-space size and sequence length than for RNNs. Furthermore, we analyze the extent to which learned state-tracking mechanisms are shared across different sequence lengths. We show that transformers exhibit negligible or even detrimental weight sharing across lengths, indicating that they learn length-specific solutions in isolation. In contrast, recurrent models exhibit effective amortized learning by sharing weights across lengths, allowing data from one sequence length to improve performance on others. Together, these results demonstrate that state tracking remains a fundamental challenge for transformers, even when training and evaluation distributions match.

Sobre el "Sesgo de Inducción" en los Modelos de Secuencias

On the "Induction Bias" in Sequence Models

Resumen

Support