教示的から構成的へ:専門家の解決策を学習可能な推論に転換する
Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning
February 2, 2026
著者: Ethan Mendes, Jungsoo Park, Alan Ritter
cs.AI
要旨
大規模言語モデル(LLMs)の推論能力を向上させるには、一般に、強化すべき正解をモデルが生成できる能力、あるいは問題を解けるより強力なモデルの存在に依存している。しかし、多くの難問は現在の最先端モデルにとっても解決困難であり、有効な学習信号の抽出を妨げている。有望な代替策として、高品質な専門家による人間の解答を活用する方法があるが、このデータを単純に模倣しても失敗する。なぜなら、専門家の解答は本質的に分布外であり、通常は教育的意図を持ち、計算モデルではなく人間の読者を想定した暗黙の推論の飛躍を含むからである。さらに、高品質な専門家の解答は高コストであるため、汎化性の高いサンプル効率的な学習手法が求められる。我々は、Distribution Aligned Imitation Learning (DAIL) を提案する。これは2段階の手法であり、まず専門家の解答を詳細な分布内の推論トレースに変換して分布の隔たりを埋め、その後、対照学習目的関数を適用して専門家の洞察と方法論に学習を集中させる。DAILは、1000件未満の高品質な専門家の解答を用いて、Qwen2.5-InstructおよびQwen3モデルにおいて10-25%のpass@k向上を達成し、推論効率を2倍から4倍改善し、ドメイン外汎化を可能にすることを確認した。
English
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or on the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out of distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve 10-25% pass@k gains on Qwen2.5-Instruct and Qwen3 models, improve reasoning efficiency by 2x to 4x, and enable out-of-domain generalization.