Неявное рассуждение в трансформаторах — это рассуждение через использование "коротких путей".

Аннотация

Вычислительные ресурсы во время тестирования становятся новой парадигмой для улучшения способностей языковых моделей к сложному многошаговому рассуждению, что демонстрируется успехами моделей OpenAI o1 и o3, а также DeepSeek R1. По сравнению с явным рассуждением при использовании вычислительных ресурсов во время тестирования, неявное рассуждение более эффективно с точки зрения вывода, требуя генерации меньшего количества токенов. Однако почему продвинутые способности к рассуждению не проявляются в стиле неявного рассуждения? В данной работе мы обучаем GPT-2 с нуля на специально подготовленном наборе данных для многошагового математического рассуждения и проводим аналитические эксперименты, чтобы исследовать, как языковые модели выполняют неявное рассуждение в многошаговых задачах. Наши результаты показывают: 1) Языковые модели способны выполнять пошаговое рассуждение и достигать высокой точности как в рамках домена, так и за его пределами с помощью неявного рассуждения. Однако эта способность проявляется только при обучении на данных с фиксированным шаблоном. 2) Напротив, способности к неявному рассуждению, возникающие при обучении на данных без фиксированного шаблона, склонны к переобучению на конкретный шаблон и не способны к дальнейшему обобщению. Примечательно, что это ограничение также наблюдается в современных крупных языковых моделях. Эти результаты позволяют предположить, что языковые модели приобретают неявное рассуждение через обучение "коротким путям", что позволяет им демонстрировать высокую производительность на задачах с похожими шаблонами, но ограничивает их способность к обобщению.

English

Test-time compute is emerging as a new paradigm for enhancing language models' complex multi-step reasoning capabilities, as demonstrated by the success of OpenAI's o1 and o3, as well as DeepSeek's R1. Compared to explicit reasoning in test-time compute, implicit reasoning is more inference-efficient, requiring fewer generated tokens. However, why does the advanced reasoning capability fail to emerge in the implicit reasoning style? In this work, we train GPT-2 from scratch on a curated multi-step mathematical reasoning dataset and conduct analytical experiments to investigate how language models perform implicit reasoning in multi-step tasks. Our findings reveal: 1) Language models can perform step-by-step reasoning and achieve high accuracy in both in-domain and out-of-domain tests via implicit reasoning. However, this capability only emerges when trained on fixed-pattern data. 2) Conversely, implicit reasoning abilities emerging from training on unfixed-pattern data tend to overfit a specific pattern and fail to generalize further. Notably, this limitation is also observed in state-of-the-art large language models. These findings suggest that language models acquire implicit reasoning through shortcut learning, enabling strong performance on tasks with similar patterns while lacking generalization.

Неявное рассуждение в трансформаторах — это рассуждение через использование "коротких путей".

Implicit Reasoning in Transformers is Reasoning through Shortcuts

Аннотация

Support