О «предвзятости индукции» в последовательностных моделях

Аннотация

Несмотря на выдающиеся практические успехи трансформерных языковых моделей, последние исследования выявили обеспокоенность относительно их способности отслеживать состояние. В частности, растущее число публикаций демонстрирует это ограничение в основном через неудачи в обобщении за пределами распределения данных, такие как экстраполяция по длине. В данной работе мы смещаем внимание на последствия этих ограничений внутри распределения. Мы проводим масштабное экспериментальное исследование эффективности использования данных трансформерами и рекуррентными нейронными сетями в различных режимах обучения с учителем. Мы обнаруживаем, что объем обучающих данных, требуемый трансформерам, растет гораздо быстрее с увеличением размера пространства состояний и длины последовательности, чем для RNN. Кроме того, мы анализируем степень, в которой изученные механизмы отслеживания состояния являются общими для последовательностей разной длины. Мы показываем, что трансформеры демонстрируют незначительный или даже вредный перенос весов между разными длинами, что указывает на то, что они изучают специфичные для каждой длины решения изолированно. В отличие от них, рекуррентные модели демонстрируют эффективное усредненное обучение за счет разделения весов между разными длинами, позволяя данным для одной длины последовательности улучшать производительность на других. В совокупности эти результаты демонстрируют, что отслеживание состояния остается фундаментальной проблемой для трансформеров, даже когда распределения обучающих и тестовых данных совпадают.

English

Despite the remarkable practical success of transformer-based language models, recent work has raised concerns about their ability to perform state tracking. In particular, a growing body of literature has shown this limitation primarily through failures in out-of-distribution (OOD) generalization, such as length extrapolation. In this work, we shift attention to the in-distribution implications of these limitations. We conduct a large-scale experimental study of the data efficiency of transformers and recurrent neural networks (RNNs) across multiple supervision regimes. We find that the amount of training data required by transformers grows much more rapidly with state-space size and sequence length than for RNNs. Furthermore, we analyze the extent to which learned state-tracking mechanisms are shared across different sequence lengths. We show that transformers exhibit negligible or even detrimental weight sharing across lengths, indicating that they learn length-specific solutions in isolation. In contrast, recurrent models exhibit effective amortized learning by sharing weights across lengths, allowing data from one sequence length to improve performance on others. Together, these results demonstrate that state tracking remains a fundamental challenge for transformers, even when training and evaluation distributions match.

О «предвзятости индукции» в последовательностных моделях

On the "Induction Bias" in Sequence Models

Аннотация

Support