Aprendizado por Reforço Supervisionado: De Trajetórias Especialistas ao Raciocínio Passo a Passo
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
October 29, 2025
Autores: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee
cs.AI
Resumo
Os Grandes Modelos de Linguagem (LLMs) frequentemente lutam com problemas que exigem raciocínio em múltiplas etapas. Para modelos *open-source* de pequena escala, o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) falha quando soluções corretas são raramente amostradas, mesmo após muitas tentativas, enquanto o Ajuste Fino Supervisionado (SFT) tende a sofrer de sobreajuste com demonstrações longas através de uma imitação rígida, token por token. Para colmatar esta lacuna, propomos o Aprendizado por Reforço Supervisionado (SRL), uma estrutura que reformula a resolução de problemas como a geração de uma sequência de "ações" lógicas. O SRL treina o modelo para gerar um monólogo interno de raciocínio antes de se comprometer com cada ação. Ele fornece recompensas mais suaves com base na similaridade entre as ações do modelo e as ações de especialistas extraídas do conjunto de dados SFT de forma gradual, passo a passo. Esta supervisão oferece sinais de aprendizagem mais ricos, mesmo quando todas as execuções (*rollouts*) estão incorretas, ao mesmo tempo que incentiva um raciocínio flexível orientado por demonstrações de especialistas. Como resultado, o SRL permite que modelos pequenos aprendam problemas desafiadores anteriormente inatingíveis por SFT ou RLVR. Além disso, inicializar o treinamento com SRL antes de refinar com RLVR produz o desempenho global mais forte. Para além de benchmarks de raciocínio, o SRL generaliza eficazmente para tarefas de engenharia de software agentivas, estabelecendo-o como uma estrutura de treinamento robusta e versátil para LLMs orientados ao raciocínio.
English
Large Language Models (LLMs) often struggle with problems that require
multi-step reasoning. For small-scale open-source models, Reinforcement
Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely
sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to
overfit long demonstrations through rigid token-by-token imitation. To address
this gap, we propose Supervised Reinforcement Learning (SRL), a framework that
reformulates problem solving as generating a sequence of logical "actions". SRL
trains the model to generate an internal reasoning monologue before committing
to each action. It provides smoother rewards based on the similarity between
the model's actions and expert actions extracted from the SFT dataset in a
step-wise manner. This supervision offers richer learning signals even when all
rollouts are incorrect, while encouraging flexible reasoning guided by expert
demonstrations. As a result, SRL enables small models to learn challenging
problems previously unlearnable by SFT or RLVR. Moreover, initializing training
with SRL before refining with RLVR yields the strongest overall performance.
Beyond reasoning benchmarks, SRL generalizes effectively to agentic software
engineering tasks, establishing it as a robust and versatile training framework
for reasoning-oriented LLMs.