Aprender a razonar sin recompensas externas
Learning to Reason without External Rewards
May 26, 2025
Autores: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI
Resumen
El entrenamiento de modelos de lenguaje grandes (LLMs) para razonamiento complejo mediante Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) es efectivo, pero está limitado por la dependencia de supervisión costosa y específica del dominio. Exploramos el Aprendizaje por Refuerzo a partir de Retroalimentación Interna (RLIF), un marco que permite a los LLMs aprender de señales intrínsecas sin recompensas externas ni datos etiquetados. Proponemos Intuitor, un método RLIF que utiliza la confianza propia del modelo, denominada auto-certeza, como su única señal de recompensa. Intuitor reemplaza las recompensas externas en la Optimización de Políticas Relativas de Grupo (GRPO) con puntuaciones de auto-certeza, permitiendo un aprendizaje completamente no supervisado. Los experimentos demuestran que Intuitor iguala el rendimiento de GRPO en benchmarks matemáticos mientras logra una generalización superior en tareas fuera del dominio, como la generación de código, sin requerir soluciones de referencia ni casos de prueba. Nuestros hallazgos muestran que las señales intrínsecas del modelo pueden impulsar un aprendizaje efectivo en diversos dominios, ofreciendo una alternativa escalable a RLVR para sistemas de IA autónomos donde las recompensas verificables no están disponibles. El código está disponible en https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement
Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on
costly, domain-specific supervision. We explore Reinforcement Learning from
Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic
signals without external rewards or labeled data. We propose Intuitor, an RLIF
method that uses a model's own confidence, termed self-certainty, as its sole
reward signal. Intuitor replaces external rewards in Group Relative Policy
Optimization (GRPO) with self-certainty scores, enabling fully unsupervised
learning. Experiments demonstrate that Intuitor matches GRPO's performance on
mathematical benchmarks while achieving superior generalization to
out-of-domain tasks like code generation, without requiring gold solutions or
test cases. Our findings show that intrinsic model signals can drive effective
learning across domains, offering a scalable alternative to RLVR for autonomous
AI systems where verifiable rewards are unavailable. Code is available at
https://github.com/sunblaze-ucb/IntuitorSummary
AI-Generated Summary