Гибридное подкрепление: когда награды редки, лучше быть плотным
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
October 8, 2025
Авторы: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI
Аннотация
Посттренировка для улучшения способности к рассуждению у больших языковых моделей (LLMs) всё чаще опирается на проверяемые награды: детерминированные проверяющие системы, которые предоставляют бинарные сигналы корректности (0 или 1). Хотя такие сигналы надёжны, они являются жёсткими — многие задачи допускают частично правильные или альтернативные ответы, которые проверяющие системы недооценивают, и в результате обучение ограничивается подходом "всё или ничего". Модели наград предлагают более богатый и непрерывный обратный сигнал, который может служить дополнительным источником контроля наряду с проверяющими системами. Мы представляем HERO (Hybrid Ensemble Reward Optimization) — фреймворк обучения с подкреплением, который структурированно интегрирует сигналы проверяющих систем с оценками моделей наград. HERO использует стратифицированную нормализацию для ограничения оценок моделей наград внутри групп, определённых проверяющими системами, сохраняя корректность при уточнении различий в качестве, а также взвешивание с учётом дисперсии для акцента на сложных запросах, где плотные сигналы наиболее важны. На различных тестах математического рассуждения HERO стабильно превосходит базовые подходы, использующие только модели наград или только проверяющие системы, демонстрируя значительные улучшения как на проверяемых, так и на сложных для проверки задачах. Наши результаты показывают, что гибридный дизайн наград сохраняет стабильность проверяющих систем, одновременно используя нюансы моделей наград для улучшения способности к рассуждению.
English
Post-training for reasoning of large language models (LLMs) increasingly
relies on verifiable rewards: deterministic checkers that provide 0-1
correctness signals. While reliable, such binary feedback is brittle--many
tasks admit partially correct or alternative answers that verifiers
under-credit, and the resulting all-or-nothing supervision limits learning.
Reward models offer richer, continuous feedback, which can serve as a
complementary supervisory signal to verifiers. We introduce HERO (Hybrid
Ensemble Reward Optimization), a reinforcement learning framework that
integrates verifier signals with reward-model scores in a structured way. HERO
employs stratified normalization to bound reward-model scores within
verifier-defined groups, preserving correctness while refining quality
distinctions, and variance-aware weighting to emphasize challenging prompts
where dense signals matter most. Across diverse mathematical reasoning
benchmarks, HERO consistently outperforms RM-only and verifier-only baselines,
with strong gains on both verifiable and hard-to-verify tasks. Our results show
that hybrid reward design retains the stability of verifiers while leveraging
the nuance of reward models to advance reasoning.