ChatPaper.aiChatPaper

Apprendre à raisonner sans récompenses externes

Learning to Reason without External Rewards

May 26, 2025
Auteurs: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI

Résumé

L'entraînement de grands modèles de langage (LLMs) pour le raisonnement complexe via l'apprentissage par renforcement avec récompenses vérifiables (RLVR) est efficace mais limité par la dépendance à une supervision coûteuse et spécifique à un domaine. Nous explorons l'apprentissage par renforcement à partir de retours internes (RLIF), un cadre qui permet aux LLMs d'apprendre à partir de signaux intrinsèques sans récompenses externes ni données étiquetées. Nous proposons Intuitor, une méthode RLIF qui utilise la confiance propre du modèle, appelée auto-certitude, comme unique signal de récompense. Intuitor remplace les récompenses externes dans l'optimisation de politique relative par groupe (GRPO) par des scores d'auto-certitude, permettant un apprentissage entièrement non supervisé. Les expériences démontrent qu'Intuitor égalise les performances de GRPO sur des benchmarks mathématiques tout en obtenant une généralisation supérieure pour des tâches hors domaine comme la génération de code, sans nécessiter de solutions de référence ou de cas de test. Nos résultats montrent que les signaux intrinsèques du modèle peuvent piloter un apprentissage efficace à travers différents domaines, offrant une alternative scalable à RLVR pour les systèmes d'IA autonomes où les récompenses vérifiables sont indisponibles. Le code est disponible à l'adresse https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on costly, domain-specific supervision. We explore Reinforcement Learning from Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic signals without external rewards or labeled data. We propose Intuitor, an RLIF method that uses a model's own confidence, termed self-certainty, as its sole reward signal. Intuitor replaces external rewards in Group Relative Policy Optimization (GRPO) with self-certainty scores, enabling fully unsupervised learning. Experiments demonstrate that Intuitor matches GRPO's performance on mathematical benchmarks while achieving superior generalization to out-of-domain tasks like code generation, without requiring gold solutions or test cases. Our findings show that intrinsic model signals can drive effective learning across domains, offering a scalable alternative to RLVR for autonomous AI systems where verifiable rewards are unavailable. Code is available at https://github.com/sunblaze-ucb/Intuitor

Summary

AI-Generated Summary

PDF242May 27, 2025