ChatPaper.aiChatPaper

Lernen zu argumentieren ohne externe Belohnungen

Learning to Reason without External Rewards

May 26, 2025
Autoren: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI

Zusammenfassung

Das Training großer Sprachmodelle (LLMs) für komplexes logisches Denken durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) ist effektiv, jedoch durch die Abhängigkeit von kostspieliger, domänenspezifischer Überwachung eingeschränkt. Wir untersuchen Reinforcement Learning aus interner Rückmeldung (RLIF), ein Framework, das es LLMs ermöglicht, aus intrinsischen Signalen zu lernen, ohne externe Belohnungen oder annotierte Daten. Wir stellen Intuitor vor, eine RLIF-Methode, die das eigene Vertrauen eines Modells, bezeichnet als Selbstsicherheit, als einzigen Belohnungssignal verwendet. Intuitor ersetzt externe Belohnungen in der Gruppenrelativen Politikoptimierung (GRPO) durch Selbstsicherheitswerte, wodurch vollständig unüberwachtes Lernen ermöglicht wird. Experimente zeigen, dass Intuitor die Leistung von GRPO auf mathematischen Benchmarks erreicht, während es eine überlegene Generalisierung auf domänenübergreifende Aufgaben wie Code-Generierung erzielt, ohne goldene Lösungen oder Testfälle zu benötigen. Unsere Ergebnisse zeigen, dass intrinsische Modellsignale effektives Lernen über verschiedene Domänen hinweg antreiben können und eine skalierbare Alternative zu RLVR für autonome KI-Systeme bieten, bei denen überprüfbare Belohnungen nicht verfügbar sind. Der Code ist verfügbar unter https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on costly, domain-specific supervision. We explore Reinforcement Learning from Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic signals without external rewards or labeled data. We propose Intuitor, an RLIF method that uses a model's own confidence, termed self-certainty, as its sole reward signal. Intuitor replaces external rewards in Group Relative Policy Optimization (GRPO) with self-certainty scores, enabling fully unsupervised learning. Experiments demonstrate that Intuitor matches GRPO's performance on mathematical benchmarks while achieving superior generalization to out-of-domain tasks like code generation, without requiring gold solutions or test cases. Our findings show that intrinsic model signals can drive effective learning across domains, offering a scalable alternative to RLVR for autonomous AI systems where verifiable rewards are unavailable. Code is available at https://github.com/sunblaze-ucb/Intuitor

Summary

AI-Generated Summary

PDF242May 27, 2025