Обучение рассуждениям без внешних вознаграждений
Learning to Reason without External Rewards
May 26, 2025
Авторы: Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song
cs.AI
Аннотация
Обучение больших языковых моделей (LLMs) для сложных рассуждений с использованием обучения с подкреплением на основе проверяемых наград (RLVR) является эффективным, но ограничено зависимостью от дорогостоящего, предметно-ориентированного контроля. Мы исследуем обучение с подкреплением на основе внутренней обратной связи (RLIF) — подход, который позволяет LLMs обучаться на основе внутренних сигналов без внешних наград или размеченных данных. Мы предлагаем Intuitor, метод RLIF, который использует собственную уверенность модели, называемую самоуверенностью, в качестве единственного сигнала награды. Intuitor заменяет внешние награды в оптимизации групповой относительной политики (GRPO) на оценки самоуверенности, что позволяет полностью автономное обучение. Эксперименты показывают, что Intuitor соответствует производительности GRPO на математических тестах, одновременно демонстрируя превосходную обобщаемость на задачи за пределами предметной области, такие как генерация кода, без необходимости использования эталонных решений или тестовых случаев. Наши результаты показывают, что внутренние сигналы модели могут эффективно стимулировать обучение в различных областях, предлагая масштабируемую альтернативу RLVR для автономных систем ИИ, где проверяемые награды недоступны. Код доступен по адресу https://github.com/sunblaze-ucb/Intuitor.
English
Training large language models (LLMs) for complex reasoning via Reinforcement
Learning with Verifiable Rewards (RLVR) is effective but limited by reliance on
costly, domain-specific supervision. We explore Reinforcement Learning from
Internal Feedback (RLIF), a framework that enables LLMs to learn from intrinsic
signals without external rewards or labeled data. We propose Intuitor, an RLIF
method that uses a model's own confidence, termed self-certainty, as its sole
reward signal. Intuitor replaces external rewards in Group Relative Policy
Optimization (GRPO) with self-certainty scores, enabling fully unsupervised
learning. Experiments demonstrate that Intuitor matches GRPO's performance on
mathematical benchmarks while achieving superior generalization to
out-of-domain tasks like code generation, without requiring gold solutions or
test cases. Our findings show that intrinsic model signals can drive effective
learning across domains, offering a scalable alternative to RLVR for autonomous
AI systems where verifiable rewards are unavailable. Code is available at
https://github.com/sunblaze-ucb/IntuitorSummary
AI-Generated Summary