Гибридное подкрепление: когда награды редки, лучше быть плотным

Аннотация

Посттренировка для улучшения способности к рассуждению у больших языковых моделей (LLMs) всё чаще опирается на проверяемые награды: детерминированные проверяющие системы, которые предоставляют бинарные сигналы корректности (0 или 1). Хотя такие сигналы надёжны, они являются жёсткими — многие задачи допускают частично правильные или альтернативные ответы, которые проверяющие системы недооценивают, и в результате обучение ограничивается подходом "всё или ничего". Модели наград предлагают более богатый и непрерывный обратный сигнал, который может служить дополнительным источником контроля наряду с проверяющими системами. Мы представляем HERO (Hybrid Ensemble Reward Optimization) — фреймворк обучения с подкреплением, который структурированно интегрирует сигналы проверяющих систем с оценками моделей наград. HERO использует стратифицированную нормализацию для ограничения оценок моделей наград внутри групп, определённых проверяющими системами, сохраняя корректность при уточнении различий в качестве, а также взвешивание с учётом дисперсии для акцента на сложных запросах, где плотные сигналы наиболее важны. На различных тестах математического рассуждения HERO стабильно превосходит базовые подходы, использующие только модели наград или только проверяющие системы, демонстрируя значительные улучшения как на проверяемых, так и на сложных для проверки задачах. Наши результаты показывают, что гибридный дизайн наград сохраняет стабильность проверяющих систем, одновременно используя нюансы моделей наград для улучшения способности к рассуждению.

English

Post-training for reasoning of large language models (LLMs) increasingly relies on verifiable rewards: deterministic checkers that provide 0-1 correctness signals. While reliable, such binary feedback is brittle--many tasks admit partially correct or alternative answers that verifiers under-credit, and the resulting all-or-nothing supervision limits learning. Reward models offer richer, continuous feedback, which can serve as a complementary supervisory signal to verifiers. We introduce HERO (Hybrid Ensemble Reward Optimization), a reinforcement learning framework that integrates verifier signals with reward-model scores in a structured way. HERO employs stratified normalization to bound reward-model scores within verifier-defined groups, preserving correctness while refining quality distinctions, and variance-aware weighting to emphasize challenging prompts where dense signals matter most. Across diverse mathematical reasoning benchmarks, HERO consistently outperforms RM-only and verifier-only baselines, with strong gains on both verifiable and hard-to-verify tasks. Our results show that hybrid reward design retains the stability of verifiers while leveraging the nuance of reward models to advance reasoning.

Гибридное подкрепление: когда награды редки, лучше быть плотным

Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

Аннотация

Support