ChatPaper.aiChatPaper

Aprendendo a Raciocinar sem Recompensas Externas

Learning to Reason without External Rewards

May 26, 2025
Autores: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI

Resumo

O treinamento de grandes modelos de linguagem (LLMs) para raciocínio complexo por meio de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é eficaz, mas limitado pela dependência de supervisão específica de domínio e custosa. Exploramos o Aprendizado por Reforço a partir de Feedback Interno (RLIF), uma estrutura que permite que LLMs aprendam a partir de sinais intrínsecos sem a necessidade de recompensas externas ou dados rotulados. Propomos o Intuitor, um método RLIF que utiliza a própria confiança do modelo, denominada autocerteza, como seu único sinal de recompensa. O Intuitor substitui as recompensas externas na Otimização de Política Relativa de Grupo (GRPO) por pontuações de autocerteza, permitindo um aprendizado completamente não supervisionado. Experimentos demonstram que o Intuitor iguala o desempenho do GRPO em benchmarks matemáticos enquanto alcança uma generalização superior em tarefas fora do domínio, como geração de código, sem exigir soluções de referência ou casos de teste. Nossos resultados mostram que sinais intrínsecos do modelo podem impulsionar um aprendizado eficaz em diversos domínios, oferecendo uma alternativa escalável ao RLVR para sistemas de IA autônomos onde recompensas verificáveis não estão disponíveis. O código está disponível em https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on costly, domain-specific supervision. We explore Reinforcement Learning from Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic signals without external rewards or labeled data. We propose Intuitor, an RLIF method that uses a model's own confidence, termed self-certainty, as its sole reward signal. Intuitor replaces external rewards in Group Relative Policy Optimization (GRPO) with self-certainty scores, enabling fully unsupervised learning. Experiments demonstrate that Intuitor matches GRPO's performance on mathematical benchmarks while achieving superior generalization to out-of-domain tasks like code generation, without requiring gold solutions or test cases. Our findings show that intrinsic model signals can drive effective learning across domains, offering a scalable alternative to RLVR for autonomous AI systems where verifiable rewards are unavailable. Code is available at https://github.com/sunblaze-ucb/Intuitor
PDF292December 16, 2025