Sobre o "Viés de Indução" em Modelos de Sequência

Resumo

Apesar do notável sucesso prático dos modelos de linguagem baseados em transformadores, trabalhos recentes têm levantado preocupações sobre sua capacidade de realizar o rastreamento de estados. Em particular, um número crescente de publicações tem demonstrado essa limitação principalmente através de falhas na generalização fora da distribuição (FDD), como a extrapolação de comprimento. Neste trabalho, desviamos a atenção para as implicações dessas limitações dentro da distribuição. Realizamos um estudo experimental em larga escala da eficiência de dados dos transformadores e das redes neurais recorrentes (RNNs) em múltiplos regimes de supervisão. Descobrimos que a quantidade de dados de treinamento necessária para os transformadores cresce muito mais rapidamente com o tamanho do espaço de estados e o comprimento da sequência do que para as RNNs. Além disso, analisamos até que ponto os mecanismos de rastreamento de estados aprendidos são compartilhados entre diferentes comprimentos de sequência. Mostramos que os transformadores exibem um compartilhamento de pesos insignificante ou mesmo prejudicial entre comprimentos, indicando que eles aprendem soluções específicas para cada comprimento de forma isolada. Em contraste, os modelos recorrentes exibem um aprendizado amortizado eficaz ao compartilhar pesos entre comprimentos, permitindo que os dados de um comprimento de sequência melhorem o desempenho em outros. Juntos, esses resultados demonstram que o rastreamento de estados permanece um desafio fundamental para os transformadores, mesmo quando as distribuições de treinamento e avaliação coincidem.

English

Despite the remarkable practical success of transformer-based language models, recent work has raised concerns about their ability to perform state tracking. In particular, a growing body of literature has shown this limitation primarily through failures in out-of-distribution (OOD) generalization, such as length extrapolation. In this work, we shift attention to the in-distribution implications of these limitations. We conduct a large-scale experimental study of the data efficiency of transformers and recurrent neural networks (RNNs) across multiple supervision regimes. We find that the amount of training data required by transformers grows much more rapidly with state-space size and sequence length than for RNNs. Furthermore, we analyze the extent to which learned state-tracking mechanisms are shared across different sequence lengths. We show that transformers exhibit negligible or even detrimental weight sharing across lengths, indicating that they learn length-specific solutions in isolation. In contrast, recurrent models exhibit effective amortized learning by sharing weights across lengths, allowing data from one sequence length to improve performance on others. Together, these results demonstrate that state tracking remains a fundamental challenge for transformers, even when training and evaluation distributions match.

Sobre o "Viés de Indução" em Modelos de Sequência

On the "Induction Bias" in Sequence Models

Resumo

Support