ChatPaper.aiChatPaper

Обучение рассуждениям без внешних вознаграждений

Learning to Reason without External Rewards

May 26, 2025
Авторы: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI

Аннотация

Обучение больших языковых моделей (LLMs) для сложных рассуждений с использованием обучения с подкреплением на основе проверяемых наград (RLVR) является эффективным, но ограничено зависимостью от дорогостоящего, предметно-ориентированного контроля. Мы исследуем обучение с подкреплением на основе внутренней обратной связи (RLIF) — подход, который позволяет LLMs обучаться на основе внутренних сигналов без внешних наград или размеченных данных. Мы предлагаем Intuitor, метод RLIF, который использует собственную уверенность модели, называемую самоуверенностью, в качестве единственного сигнала награды. Intuitor заменяет внешние награды в оптимизации групповой относительной политики (GRPO) на оценки самоуверенности, что позволяет полностью автономное обучение. Эксперименты показывают, что Intuitor соответствует производительности GRPO на математических тестах, одновременно демонстрируя превосходную обобщаемость на задачи за пределами предметной области, такие как генерация кода, без необходимости использования эталонных решений или тестовых случаев. Наши результаты показывают, что внутренние сигналы модели могут эффективно стимулировать обучение в различных областях, предлагая масштабируемую альтернативу RLVR для автономных систем ИИ, где проверяемые награды недоступны. Код доступен по адресу https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on costly, domain-specific supervision. We explore Reinforcement Learning from Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic signals without external rewards or labeled data. We propose Intuitor, an RLIF method that uses a model's own confidence, termed self-certainty, as its sole reward signal. Intuitor replaces external rewards in Group Relative Policy Optimization (GRPO) with self-certainty scores, enabling fully unsupervised learning. Experiments demonstrate that Intuitor matches GRPO's performance on mathematical benchmarks while achieving superior generalization to out-of-domain tasks like code generation, without requiring gold solutions or test cases. Our findings show that intrinsic model signals can drive effective learning across domains, offering a scalable alternative to RLVR for autonomous AI systems where verifiable rewards are unavailable. Code is available at https://github.com/sunblaze-ucb/Intuitor

Summary

AI-Generated Summary

PDF242May 27, 2025