Leren redeneren zonder externe beloningen
Learning to Reason without External Rewards
May 26, 2025
Auteurs: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI
Samenvatting
Het trainen van grote taalmodellen (LLMs) voor complex redeneren via Reinforcement Learning met Verifieerbare Beloningen (RLVR) is effectief, maar wordt beperkt door de afhankelijkheid van kostbaar, domeinspecifiek toezicht. We onderzoeken Reinforcement Learning vanuit Interne Feedback (RLIF), een raamwerk dat LLMs in staat stelt te leren van intrinsieke signalen zonder externe beloningen of gelabelde data. We introduceren Intuitor, een RLIF-methode die het eigen vertrouwen van een model, aangeduid als zelfzekerheid, als enige beloningssignaal gebruikt. Intuitor vervangt externe beloningen in Groepsrelatief Beleidsoptimalisatie (GRPO) door zelfzekerheidsscores, waardoor volledig onbegeleid leren mogelijk wordt. Experimenten tonen aan dat Intuitor de prestaties van GRPO op wiskundige benchmarks evenaart, terwijl het superieure generalisatie bereikt voor taken buiten het domein, zoals codegeneratie, zonder dat gouden oplossingen of testcases nodig zijn. Onze bevindingen laten zien dat intrinsieke modelsignalen effectief leren kunnen stimuleren over verschillende domeinen, wat een schaalbare alternatieve biedt voor RLVR voor autonome AI-systemen waar verifieerbare beloningen niet beschikbaar zijn. Code is beschikbaar op https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement
Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on
costly, domain-specific supervision. We explore Reinforcement Learning from
Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic
signals without external rewards or labeled data. We propose Intuitor, an RLIF
method that uses a model's own confidence, termed self-certainty, as its sole
reward signal. Intuitor replaces external rewards in Group Relative Policy
Optimization (GRPO) with self-certainty scores, enabling fully unsupervised
learning. Experiments demonstrate that Intuitor matches GRPO's performance on
mathematical benchmarks while achieving superior generalization to
out-of-domain tasks like code generation, without requiring gold solutions or
test cases. Our findings show that intrinsic model signals can drive effective
learning across domains, offering a scalable alternative to RLVR for autonomous
AI systems where verifiable rewards are unavailable. Code is available at
https://github.com/sunblaze-ucb/Intuitor