Leren redeneren zonder externe beloningen

Samenvatting

Het trainen van grote taalmodellen (LLMs) voor complex redeneren via Reinforcement Learning met Verifieerbare Beloningen (RLVR) is effectief, maar wordt beperkt door de afhankelijkheid van kostbaar, domeinspecifiek toezicht. We onderzoeken Reinforcement Learning vanuit Interne Feedback (RLIF), een raamwerk dat LLMs in staat stelt te leren van intrinsieke signalen zonder externe beloningen of gelabelde data. We introduceren Intuitor, een RLIF-methode die het eigen vertrouwen van een model, aangeduid als zelfzekerheid, als enige beloningssignaal gebruikt. Intuitor vervangt externe beloningen in Groepsrelatief Beleidsoptimalisatie (GRPO) door zelfzekerheidsscores, waardoor volledig onbegeleid leren mogelijk wordt. Experimenten tonen aan dat Intuitor de prestaties van GRPO op wiskundige benchmarks evenaart, terwijl het superieure generalisatie bereikt voor taken buiten het domein, zoals codegeneratie, zonder dat gouden oplossingen of testcases nodig zijn. Onze bevindingen laten zien dat intrinsieke modelsignalen effectief leren kunnen stimuleren over verschillende domeinen, wat een schaalbare alternatieve biedt voor RLVR voor autonome AI-systemen waar verifieerbare beloningen niet beschikbaar zijn. Code is beschikbaar op https://github.com/sunblaze-ucb/Intuitor.

English

Training large language models (LLMs) for complex reasoning via Reinforcement Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on costly, domain-specific supervision. We explore Reinforcement Learning from Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic signals without external rewards or labeled data. We propose Intuitor, an RLIF method that uses a model's own confidence, termed self-certainty, as its sole reward signal. Intuitor replaces external rewards in Group Relative Policy Optimization (GRPO) with self-certainty scores, enabling fully unsupervised learning. Experiments demonstrate that Intuitor matches GRPO's performance on mathematical benchmarks while achieving superior generalization to out-of-domain tasks like code generation, without requiring gold solutions or test cases. Our findings show that intrinsic model signals can drive effective learning across domains, offering a scalable alternative to RLVR for autonomous AI systems where verifiable rewards are unavailable. Code is available at https://github.com/sunblaze-ucb/Intuitor

Leren redeneren zonder externe beloningen

Learning to Reason without External Rewards

Samenvatting

Support