弱教師あり学習による推論能力をLLMはいつ獲得できるか?
When Can LLMs Learn to Reason with Weak Supervision?
April 20, 2026
著者: Salman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov
cs.AI
要旨
大規模言語モデルは、検証可能な報酬を用いた強化学習(RLVR)を通じて推論能力の著しい向上を達成してきた。しかし、モデルの能力が高まるにつれ、高品質な報酬信号の構築は次第に困難になっており、弱い監督条件下でもRLVRが成功する条件を理解することが不可欠である。我々は、3つの弱い監督設定(データ不足、ノイズの多い報酬、自己監督的代理報酬)において、様々なモデルファミリーと推論領域にわたる系統的な実証研究を実施した。その結果、一般化能力は訓練報酬の飽和ダイナミクスによって支配されていることが明らかになった。一般化するモデルは、訓練報酬と下流課題の性能が共に上昇する飽和前段階が長期にわたって持続する一方、急速に飽和するモデルは学習ではなく記憶に依存する。我々は、中間ステップが最終回答を論理的に支持する程度として定義される推論の忠実性が、モデルがどちらの体制に分類されるかを予測するRL前の特性であることを特定し、出力の多様性だけでは情報とならないことを示した。これらの知見に基づき、継続事前学習と教師ありファインチューニングの寄与を分離した結果、明示的な推論過程に対するSFTが弱い監督下での一般化に必要である一方、領域データによる継続事前学習はその効果を増幅することがわかった。Llama3.2-3B-Baseにこれらの介入を併用することで、基本モデルが従来失敗していた3つの設定すべてにわたる一般化が可能となった。
English
Large language models have achieved significant reasoning improvements through reinforcement learning with verifiable rewards (RLVR). Yet as model capabilities grow, constructing high-quality reward signals becomes increasingly difficult, making it essential to understand when RLVR can succeed under weaker forms of supervision. We conduct a systematic empirical study across diverse model families and reasoning domains under three weak supervision settings: scarce data, noisy rewards, and self-supervised proxy rewards. We find that generalization is governed by training reward saturation dynamics: models that generalize exhibit a prolonged pre-saturation phase during which training reward and downstream performance climb together, while models that saturate rapidly memorize rather than learn. We identify reasoning faithfulness, defined as the extent to which intermediate steps logically support the final answer, as the pre-RL property that predicts which regime a model falls into, while output diversity alone is uninformative. Motivated by these findings, we disentangle the contributions of continual pre-training and supervised fine-tuning, finding that SFT on explicit reasoning traces is necessary for generalization under weak supervision, while continual pre-training on domain data amplifies the effect. Applied together to Llama3.2-3B-Base, these interventions enable generalization across all three settings where the base model previously failed.