ChatPaper.aiChatPaper

TraPO: 대규모 언어 모델 추론 성능 향상을 위한 준지도 강화학습 프레임워크

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning

December 15, 2025
저자: Shenzhi Yang, Guangcheng Zhu, Xing Zheng, Yingfan MA, Zhongqi Chen, Bowen Song, Weiqiang Wang, Junbo Zhao, Gang Chen, Haobo Wang
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 답변 검증 신호를 활용해 정책 최적화를 안내하는 방식으로 대규모 추론 모델(LRM) 훈련에 효과적인 것으로 입증되었으나, 높은 주석 비용이 문제로 지적되어 왔다. 이를 완화하기 위해 최근 연구에서는 엔트로피나 다수결과 같은 모델의 내적 일관성만으로 보상을 도출하는 비지도 RLVR 방법을 탐구하고 있다. 이러한 방법들은 유망해 보이지만, 외부 감독이 없는 상태에서 잘못된 추론 패턴이 강화되며 훈련 후반부에 모델 붕괴가 발생하는 경우가 많다. 본 연구에서는 소량의 레이블된 데이터셋을 활용하여 비레이블 표본에 대한 RLVR 훈련을 안내하는 새로운 준지도 RLVR 패러다임을 탐구한다. 우리의 핵심 통찰은 지도 보상이 비레이블 표본에 대한 일관성 기반 훈련을 안정화하는 데 필수적이며, 레이블된 인스턴스에서 검증된 추론 패턴만이 RL 훈련에 통합되도록 보장한다는 점이다. 기술적으로는 학습 궤적 유사성을 레이블된 표본과 비교하여 신뢰할 수 있는 비레이블 표본을 식별하는 효과적인 정책 최적화 알고리즘인 TraPO를 제안한다. 이를 바탕으로 TraPO는 6개의 널리 사용되는 수학 추론 벤치마크(AIME24/25, AMC, MATH-500, Minerva, Olympiad)와 3개의 분포 외 작업(ARC-c, GPQA-diamond, MMLU-pro)에서 뛰어난 데이터 효율성과 강력한 일반화 성능을 달성했다. 레이블된 표본 1,000개와 비레이블 표본 3,000개만 사용하여 TraPO는 평균 정확도 42.6%를 기록했으며, 비레이블 표본 45,000개로 훈련한 최고의 비지도 방법(38.3%)을 능가했다. 특히 레이블된 표본 4,000개와 비레이블 표본 12,000개를 사용했을 때, TraPO는 전체 레이블된 표본 45,000개로 훈련한 완전 지도 모델을 모든 벤치마크에서 능가하는 동시에 레이블 데이터의 10%만 사용하는 성과를 보였다. 코드는 https://github.com/ShenzhiYang2000/TRAPO에서 확인할 수 있다.
English
Reinforcement learning with verifiable rewards (RLVR) has proven effective in training large reasoning models (LRMs) by leveraging answer-verifiable signals to guide policy optimization, which, however, suffers from high annotation costs. To alleviate this problem, recent work has explored unsupervised RLVR methods that derive rewards solely from the model's internal consistency, such as through entropy and majority voting. While seemingly promising, these methods often suffer from model collapse in the later stages of training, which may arise from the reinforcement of incorrect reasoning patterns in the absence of external supervision. In this work, we investigate a novel semi-supervised RLVR paradigm that utilizes a small labeled set to guide RLVR training on unlabeled samples. Our key insight is that supervised rewards are essential for stabilizing consistency-based training on unlabeled samples, ensuring that only reasoning patterns verified on labeled instances are incorporated into RL training. Technically, we propose an effective policy optimization algorithm, TraPO, that identifies reliable unlabeled samples by matching their learning trajectory similarity to labeled ones. Building on this, TraPO achieves remarkable data efficiency and strong generalization on six widely used mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). With only 1K labeled and 3K unlabeled samples, TraPO reaches 42.6% average accuracy, surpassing the best unsupervised method trained on 45K unlabeled samples (38.3%). Notably, when using 4K labeled and 12K unlabeled samples, TraPO even outperforms the fully supervised model trained on the full 45K labeled samples on all benchmarks, while using only 10% of the labeled data. The code is available via https://github.com/ShenzhiYang2000/TRAPO.
PDF41February 7, 2026