시퀀스 모델의 "귀납적 편향"에 관하여
On the "Induction Bias" in Sequence Models
February 20, 2026
저자: M. Reza Ebrahimi, Michaël Defferrard, Sunny Panchal, Roland Memisevic
cs.AI
초록
트랜스포머 기반 언어 모델의 놀라운 실용적 성공에도 불구하고, 최근 연구들은 이들의 상태 추적 능력에 대한 우려를 제기하고 있습니다. 특히, 길이 외삽과 같은 분포 외 일반화에서의 실패를 통해 이러한 한계를 보여주는 연구가 늘어나고 있습니다. 본 연구에서는 이러한 한계가 분포 내에서 가지는 함의에 주목합니다. 우리는 다양한 지도 학습 방식에서 트랜스포머와 순환 신경망(RNN)의 데이터 효율성에 대한 대규모 실험 연구를 수행합니다. 그 결과, 상태 공간 크기와 시퀀스 길이가 증가함에 따라 트랜스포머가 필요로 하는 학습 데이터의 양이 RNN에 비해 훨씬 더 빠르게 증가함을 발견했습니다. 더 나아가, 학습된 상태 추적 메커니즘이 서로 다른 시퀀스 길이에 걸쳐 어느 정도 공유되는지 분석합니다. 트랜스포머는 길이 간에 무시할 수 있을 정도로 또는 오히려 해가 되는 수준의 가중치 공유를 보여주며, 이는 각 길이에 대해 고립된 길이 특화적 해법을 학습함을 시사합니다. 대조적으로, 순환 모델은 길이에 걸쳐 가중치를 효과적으로 공유함으로써 분할 상환적 학습을 나타내며, 하나의 시퀀스 길이에서 얻은 데이터가 다른 길이에서의 성능 향상에 기여하도록 합니다. 이러한 결과들은 훈련과 평가 분포가 일치하는 상황에서도 상태 추적이 트랜스포머에게 근본적인 과제로 남아 있음을 보여줍니다.
English
Despite the remarkable practical success of transformer-based language models, recent work has raised concerns about their ability to perform state tracking. In particular, a growing body of literature has shown this limitation primarily through failures in out-of-distribution (OOD) generalization, such as length extrapolation. In this work, we shift attention to the in-distribution implications of these limitations. We conduct a large-scale experimental study of the data efficiency of transformers and recurrent neural networks (RNNs) across multiple supervision regimes. We find that the amount of training data required by transformers grows much more rapidly with state-space size and sequence length than for RNNs. Furthermore, we analyze the extent to which learned state-tracking mechanisms are shared across different sequence lengths. We show that transformers exhibit negligible or even detrimental weight sharing across lengths, indicating that they learn length-specific solutions in isolation. In contrast, recurrent models exhibit effective amortized learning by sharing weights across lengths, allowing data from one sequence length to improve performance on others. Together, these results demonstrate that state tracking remains a fundamental challenge for transformers, even when training and evaluation distributions match.