ChatPaper.aiChatPaper

Imparare a Ragionare senza Ricompense Esterne

Learning to Reason without External Rewards

May 26, 2025
Autori: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI

Abstract

L'addestramento di grandi modelli linguistici (LLM) per il ragionamento complesso tramite Reinforcement Learning con Ricompense Verificabili (RLVR) è efficace ma limitato dalla dipendenza da supervisione costosa e specifica per dominio. Esploriamo il Reinforcement Learning da Feedback Interno (RLIF), un framework che consente ai LLM di apprendere da segnali intrinseci senza ricompense esterne o dati etichettati. Proponiamo Intuitor, un metodo RLIF che utilizza la fiducia del modello stesso, denominata auto-certezza, come unico segnale di ricompensa. Intuitor sostituisce le ricompense esterne nell'ottimizzazione delle politiche relative al gruppo (GRPO) con punteggi di auto-certezza, consentendo un apprendimento completamente non supervisionato. Gli esperimenti dimostrano che Intuitor eguaglia le prestazioni di GRPO su benchmark matematici, ottenendo al contempo una generalizzazione superiore per compiti fuori dominio come la generazione di codice, senza richiedere soluzioni di riferimento o casi di test. I nostri risultati mostrano che i segnali intrinseci del modello possono guidare un apprendimento efficace in diversi domini, offrendo un'alternativa scalabile a RLVR per sistemi di IA autonomi in cui le ricompense verificabili non sono disponibili. Il codice è disponibile all'indirizzo https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on costly, domain-specific supervision. We explore Reinforcement Learning from Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic signals without external rewards or labeled data. We propose Intuitor, an RLIF method that uses a model's own confidence, termed self-certainty, as its sole reward signal. Intuitor replaces external rewards in Group Relative Policy Optimization (GRPO) with self-certainty scores, enabling fully unsupervised learning. Experiments demonstrate that Intuitor matches GRPO's performance on mathematical benchmarks while achieving superior generalization to out-of-domain tasks like code generation, without requiring gold solutions or test cases. Our findings show that intrinsic model signals can drive effective learning across domains, offering a scalable alternative to RLVR for autonomous AI systems where verifiable rewards are unavailable. Code is available at https://github.com/sunblaze-ucb/Intuitor
PDF292May 27, 2025