数学的推論は汎用LLMの能力を向上させるか? LLM推論の転移可能性の理解
Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
July 1, 2025
著者: Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
cs.AI
要旨
数学的推論は、大規模言語モデル(LLM)の進歩の象徴となり、MATHやAIMEなどのベンチマークにおいて、新たなモデルが人間レベルの性能を急速に超えつつある。しかし、数学のリーダーボードが週ごとに向上する中で、これらの進歩がより広範な問題解決能力を反映しているのか、それとも狭い範囲での過剰適合に過ぎないのかを問う価値がある。この疑問に答えるため、我々は20以上のオープンウェイトの推論チューニング済みモデルを、数学、科学的QA、エージェント計画、コーディング、標準的な指示追従を含む幅広いタスクスイートで評価した。驚くべきことに、数学で成功したモデルのほとんどが、その成果を他の領域に転移させることができなかった。この現象を厳密に研究するため、Qwen3-14Bモデルを用いて数学のみのデータを使用し、異なるチューニング方法を適用した制御実験を行った。その結果、強化学習(RL)チューニングされたモデルは領域間で良好に汎化する一方で、教師あり微調整(SFT)チューニングされたモデルは一般的な能力を忘れがちであることがわかった。潜在空間表現とトークン空間分布シフトの分析から、SFTは表現と出力の大幅なドリフトを引き起こすのに対し、RLは一般的な領域の構造を保持することが明らかになった。我々の結果は、特に推論モデルの進歩においてSFT蒸留データに依存する標準的なポストトレーニング手法を再考する必要性を示唆している。
English
Math reasoning has become the poster child of progress in large language
models (LLMs), with new models rapidly surpassing human-level performance on
benchmarks like MATH and AIME. But as math leaderboards improve week by week,
it is worth asking: do these gains reflect broader problem-solving ability or
just narrow overfitting? To answer this question, we evaluate over 20
open-weight reasoning-tuned models across a broad suite of tasks, including
math, scientific QA, agent planning, coding, and standard
instruction-following. We surprisingly find that most models that succeed in
math fail to transfer their gains to other domains. To rigorously study this
phenomenon, we conduct controlled experiments on Qwen3-14B models using
math-only data but different tuning methods. We find that reinforcement
learning (RL)-tuned models generalize well across domains, while supervised
fine-tuning (SFT)-tuned models often forget general capabilities. Latent-space
representation and token-space distribution shift analyses reveal that SFT
induces substantial representation and output drift, while RL preserves
general-domain structure. Our results suggest a need to rethink standard
post-training recipes, particularly the reliance on SFT-distilled data for
advancing reasoning models.