ChatPaper.aiChatPaper

TraPO: 大規模言語モデルの推論能力向上のための半教師付き強化学習フレームワーク

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning

December 15, 2025
著者: Shenzhi Yang, Guangcheng Zhu, Xing Zheng, Yingfan MA, Zhongqi Chen, Bowen Song, Weiqiang Wang, Junbo Zhao, Gang Chen, Haobo Wang
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は、回答検証可能な信号を活用して方策最適化を導くことで、大規模推論モデル(LRM)の訓練に有効であることが実証されている。しかしながら、この手法は高いアノテーションコストが課題となる。この問題を緩和するため、近年の研究ではエントロピーや多数決などモデルの内部一貫性のみから報酬を導出する教師なしRLVR手法が探求されている。一見有望に見えるこれらの手法は、訓練の後期段階でモデル崩壊を引き起こしがちであるが、これは外部監督がない状況で誤った推論パターンが強化されることに起因する可能性がある。本研究では、少量のラベル付きデータセットを用いてラベルなしサンプルに対するRLVR訓練を導く、新たな半教師ありRLVRパラダイムを検討する。我々の重要な知見は、教師あり報酬が、ラベルなしサンプルに対する一貫性ベースの訓練を安定化させ、ラベル付きインスタンスで検証された推論パターンのみがRL訓練に組み込まれることを保証する上で不可欠であるという点である。技術的には、学習軌跡の類似性をラベル付きサンプルと照合することで信頼性の高いラベルなしサンプルを特定する効果的な方策最適化アルゴリズムTraPOを提案する。これを基盤として、TraPOは6つの広く使用されている数学的推論ベンチマーク(AIME24/25、AMC、MATH-500、Minerva、Olympiad)および3つの分布外タスク(ARC-c、GPQA-diamond、MMLU-pro)において、顕著なデータ効率性と強力な汎化性能を達成する。ラベル付きサンプル1,000件とラベルなしサンプル3,000件のみを使用して、TraPOは平均精度42.6%を達成し、ラベルなしサンプル45,000件で訓練した最良の教師なし手法(38.3%)を上回った。特筆すべきは、ラベル付きサンプル4,000件とラベルなしサンプル12,000件を使用した場合、TraPOは全ラベル付きサンプル45,000件で訓練した完全教師ありモデルを全てのベンチマークで凌駕し、ラベル付きデータ量は10%のみで済んだ。コードはhttps://github.com/ShenzhiYang2000/TRAPO で公開されている。
English
Reinforcement learning with verifiable rewards (RLVR) has proven effective in training large reasoning models (LRMs) by leveraging answer-verifiable signals to guide policy optimization, which, however, suffers from high annotation costs. To alleviate this problem, recent work has explored unsupervised RLVR methods that derive rewards solely from the model's internal consistency, such as through entropy and majority voting. While seemingly promising, these methods often suffer from model collapse in the later stages of training, which may arise from the reinforcement of incorrect reasoning patterns in the absence of external supervision. In this work, we investigate a novel semi-supervised RLVR paradigm that utilizes a small labeled set to guide RLVR training on unlabeled samples. Our key insight is that supervised rewards are essential for stabilizing consistency-based training on unlabeled samples, ensuring that only reasoning patterns verified on labeled instances are incorporated into RL training. Technically, we propose an effective policy optimization algorithm, TraPO, that identifies reliable unlabeled samples by matching their learning trajectory similarity to labeled ones. Building on this, TraPO achieves remarkable data efficiency and strong generalization on six widely used mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). With only 1K labeled and 3K unlabeled samples, TraPO reaches 42.6% average accuracy, surpassing the best unsupervised method trained on 45K unlabeled samples (38.3%). Notably, when using 4K labeled and 12K unlabeled samples, TraPO even outperforms the fully supervised model trained on the full 45K labeled samples on all benchmarks, while using only 10% of the labeled data. The code is available via https://github.com/ShenzhiYang2000/TRAPO.
PDF41February 7, 2026