TraPO: Uma Estrutura de Aprendizagem por Reforço Semi-Supervisionada para Impulsionar o Raciocínio de LLMs

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tem se mostrado eficaz no treinamento de grandes modelos de raciocínio (LRMs) ao aproveitar sinais verificáveis de respostas para orientar a otimização de políticas. No entanto, essa abordagem sofre com altos custos de anotação. Para mitigar esse problema, trabalhos recentes exploraram métodos não supervisionados de RLVR que derivam recompensas apenas da consistência interna do modelo, como por meio de entropia e votação majoritária. Embora aparentemente promissores, esses métodos frequentemente sofrem com colapso do modelo nas fases posteriores do treinamento, possivelmente devido ao reforço de padrões de raciocínio incorretos na ausência de supervisão externa. Neste trabalho, investigamos um novo paradigma de RLVR semissupervisionado que utiliza um pequeno conjunto rotulado para guiar o treinamento de RLVR em amostras não rotuladas. Nossa principal percepção é que recompensas supervisionadas são essenciais para estabilizar o treinamento baseado em consistência em amostras não rotuladas, garantindo que apenas padrões de raciocínio verificados em instâncias rotuladas sejam incorporados ao treinamento de RL. Tecnicamente, propomos um algoritmo eficaz de otimização de políticas, o TraPO, que identifica amostras não rotuladas confiáveis pela similaridade da trajetória de aprendizagem com amostras rotuladas. Com base nisso, o TraPO alcança notável eficiência de dados e forte generalização em seis benchmarks amplamente utilizados de raciocínio matemático (AIME24/25, AMC, MATH-500, Minerva e Olimpíada) e três tarefas fora da distribuição (ARC-c, GPQA-diamond e MMLU-pro). Com apenas 1K amostras rotuladas e 3K não rotuladas, o TraPO atinge 42,6% de precisão média, superando o melhor método não supervisionado treinado com 45K amostras não rotuladas (38,3%). Notavelmente, ao usar 4K amostras rotuladas e 12K não rotuladas, o TraPO supera até mesmo o modelo totalmente supervisionado treinado com todas as 45K amostras rotuladas em todos os benchmarks, utilizando apenas 10% dos dados rotulados. O código está disponível em https://github.com/ShenzhiYang2000/TRAPO.

English

Reinforcement learning with verifiable rewards (RLVR) has proven effective in training large reasoning models (LRMs) by leveraging answer-verifiable signals to guide policy optimization, which, however, suffers from high annotation costs. To alleviate this problem, recent work has explored unsupervised RLVR methods that derive rewards solely from the model's internal consistency, such as through entropy and majority voting. While seemingly promising, these methods often suffer from model collapse in the later stages of training, which may arise from the reinforcement of incorrect reasoning patterns in the absence of external supervision. In this work, we investigate a novel semi-supervised RLVR paradigm that utilizes a small labeled set to guide RLVR training on unlabeled samples. Our key insight is that supervised rewards are essential for stabilizing consistency-based training on unlabeled samples, ensuring that only reasoning patterns verified on labeled instances are incorporated into RL training. Technically, we propose an effective policy optimization algorithm, TraPO, that identifies reliable unlabeled samples by matching their learning trajectory similarity to labeled ones. Building on this, TraPO achieves remarkable data efficiency and strong generalization on six widely used mathematical reasoning benchmarks (AIME24/25, AMC, MATH-500, Minerva, and Olympiad) and three out-of-distribution tasks (ARC-c, GPQA-diamond, and MMLU-pro). With only 1K labeled and 3K unlabeled samples, TraPO reaches 42.6% average accuracy, surpassing the best unsupervised method trained on 45K unlabeled samples (38.3%). Notably, when using 4K labeled and 12K unlabeled samples, TraPO even outperforms the fully supervised model trained on the full 45K labeled samples on all benchmarks, while using only 10% of the labeled data. The code is available via https://github.com/ShenzhiYang2000/TRAPO.

TraPO: Uma Estrutura de Aprendizagem por Reforço Semi-Supervisionada para Impulsionar o Raciocínio de LLMs

TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning

Resumo

Support