Renforcement Hybride : Quand la Récompense est Rare, Mieux vaut Être Dense
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
October 8, 2025
papers.authors: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI
papers.abstract
L'optimisation post-entraînement pour le raisonnement des grands modèles de langage (LLMs) repose de plus en plus sur des récompenses vérifiables : des vérificateurs déterministes qui fournissent des signaux de correction binaires (0-1). Bien que fiables, ces retours binaires sont rigides—de nombreuses tâches admettent des réponses partiellement correctes ou alternatives que les vérificateurs sous-évaluent, et cette supervision tout-ou-rien limite l'apprentissage. Les modèles de récompense offrent un retour plus riche et continu, qui peut servir de signal de supervision complémentaire aux vérificateurs. Nous présentons HERO (Hybrid Ensemble Reward Optimization), un cadre d'apprentissage par renforcement qui intègre de manière structurée les signaux des vérificateurs avec les scores des modèles de récompense. HERO utilise une normalisation stratifiée pour borner les scores des modèles de récompense au sein de groupes définis par les vérificateurs, préservant ainsi la correction tout en affinant les distinctions de qualité, et un pondération tenant compte de la variance pour mettre l'accent sur les prompts difficiles où les signaux denses sont les plus importants. Sur divers benchmarks de raisonnement mathématique, HERO surpasse systématiquement les bases de référence utilisant uniquement des modèles de récompense ou des vérificateurs, avec des gains significatifs sur les tâches vérifiables et difficiles à vérifier. Nos résultats montrent que la conception hybride des récompenses conserve la stabilité des vérificateurs tout en exploitant la nuance des modèles de récompense pour faire progresser le raisonnement.
English
Post-training for reasoning of large language models (LLMs) increasingly
relies on verifiable rewards: deterministic checkers that provide 0-1
correctness signals. While reliable, such binary feedback is brittle--many
tasks admit partially correct or alternative answers that verifiers
under-credit, and the resulting all-or-nothing supervision limits learning.
Reward models offer richer, continuous feedback, which can serve as a
complementary supervisory signal to verifiers. We introduce HERO (Hybrid
Ensemble Reward Optimization), a reinforcement learning framework that
integrates verifier signals with reward-model scores in a structured way. HERO
employs stratified normalization to bound reward-model scores within
verifier-defined groups, preserving correctness while refining quality
distinctions, and variance-aware weighting to emphasize challenging prompts
where dense signals matter most. Across diverse mathematical reasoning
benchmarks, HERO consistently outperforms RM-only and verifier-only baselines,
with strong gains on both verifiable and hard-to-verify tasks. Our results show
that hybrid reward design retains the stability of verifiers while leveraging
the nuance of reward models to advance reasoning.