ChatPaper.aiChatPaper

トランスフォーマーにおける暗黙的推論はショートカットを通じた推論である

Implicit Reasoning in Transformers is Reasoning through Shortcuts

March 10, 2025
著者: Tianhe Lin, Jian Xie, Siyu Yuan, Deqing Yang
cs.AI

要旨

テスト時計算は、OpenAIのo1やo3、そしてDeepSeekのR1の成功が示すように、言語モデルの複雑な多段階推論能力を向上させる新たなパラダイムとして登場しています。テスト時計算における明示的推論と比較して、暗黙的推論は推論効率が高く、生成されるトークン数が少なくて済みます。しかし、なぜ高度な推論能力が暗黙的推論スタイルでは発現しないのでしょうか?本研究では、GPT-2を厳選された多段階数学的推論データセットでゼロから訓練し、言語モデルが多段階タスクにおいて暗黙的推論をどのように行うかを調査するための分析実験を行いました。その結果、以下のことが明らかになりました:1)言語モデルは段階的な推論を行い、暗黙的推論を通じてドメイン内およびドメイン外のテストで高い精度を達成できます。ただし、この能力は固定パターンのデータで訓練された場合にのみ発現します。2)逆に、非固定パターンのデータで訓練された場合に発現する暗黙的推論能力は、特定のパターンに過剰適合し、さらに一般化することができません。注目すべきは、この制約が最先端の大規模言語モデルでも観察されることです。これらの発見は、言語モデルがショートカット学習を通じて暗黙的推論を獲得し、類似したパターンのタスクでは強力な性能を発揮する一方で、一般化能力を欠いていることを示唆しています。
English
Test-time compute is emerging as a new paradigm for enhancing language models' complex multi-step reasoning capabilities, as demonstrated by the success of OpenAI's o1 and o3, as well as DeepSeek's R1. Compared to explicit reasoning in test-time compute, implicit reasoning is more inference-efficient, requiring fewer generated tokens. However, why does the advanced reasoning capability fail to emerge in the implicit reasoning style? In this work, we train GPT-2 from scratch on a curated multi-step mathematical reasoning dataset and conduct analytical experiments to investigate how language models perform implicit reasoning in multi-step tasks. Our findings reveal: 1) Language models can perform step-by-step reasoning and achieve high accuracy in both in-domain and out-of-domain tests via implicit reasoning. However, this capability only emerges when trained on fixed-pattern data. 2) Conversely, implicit reasoning abilities emerging from training on unfixed-pattern data tend to overfit a specific pattern and fail to generalize further. Notably, this limitation is also observed in state-of-the-art large language models. These findings suggest that language models acquire implicit reasoning through shortcut learning, enabling strong performance on tasks with similar patterns while lacking generalization.

Summary

AI-Generated Summary

PDF222March 12, 2025