Aprendizado por Reforço Supervisionado: De Trajetórias Especialistas ao Raciocínio Passo a Passo

Resumo

Os Grandes Modelos de Linguagem (LLMs) frequentemente lutam com problemas que exigem raciocínio em múltiplas etapas. Para modelos *open-source* de pequena escala, o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) falha quando soluções corretas são raramente amostradas, mesmo após muitas tentativas, enquanto o Ajuste Fino Supervisionado (SFT) tende a sofrer de sobreajuste com demonstrações longas através de uma imitação rígida, token por token. Para colmatar esta lacuna, propomos o Aprendizado por Reforço Supervisionado (SRL), uma estrutura que reformula a resolução de problemas como a geração de uma sequência de "ações" lógicas. O SRL treina o modelo para gerar um monólogo interno de raciocínio antes de se comprometer com cada ação. Ele fornece recompensas mais suaves com base na similaridade entre as ações do modelo e as ações de especialistas extraídas do conjunto de dados SFT de forma gradual, passo a passo. Esta supervisão oferece sinais de aprendizagem mais ricos, mesmo quando todas as execuções (*rollouts*) estão incorretas, ao mesmo tempo que incentiva um raciocínio flexível orientado por demonstrações de especialistas. Como resultado, o SRL permite que modelos pequenos aprendam problemas desafiadores anteriormente inatingíveis por SFT ou RLVR. Além disso, inicializar o treinamento com SRL antes de refinar com RLVR produz o desempenho global mais forte. Para além de benchmarks de raciocínio, o SRL generaliza eficazmente para tarefas de engenharia de software agentivas, estabelecendo-o como uma estrutura de treinamento robusta e versátil para LLMs orientados ao raciocínio.

English

Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.

Aprendizado por Reforço Supervisionado: De Trajetórias Especialistas ao Raciocínio Passo a Passo

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Resumo

Support