ChatPaper.aiChatPaper

Renforcement Hybride : Quand la Récompense est Rare, Mieux vaut Être Dense

Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

October 8, 2025
papers.authors: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI

papers.abstract

L'optimisation post-entraînement pour le raisonnement des grands modèles de langage (LLMs) repose de plus en plus sur des récompenses vérifiables : des vérificateurs déterministes qui fournissent des signaux de correction binaires (0-1). Bien que fiables, ces retours binaires sont rigides—de nombreuses tâches admettent des réponses partiellement correctes ou alternatives que les vérificateurs sous-évaluent, et cette supervision tout-ou-rien limite l'apprentissage. Les modèles de récompense offrent un retour plus riche et continu, qui peut servir de signal de supervision complémentaire aux vérificateurs. Nous présentons HERO (Hybrid Ensemble Reward Optimization), un cadre d'apprentissage par renforcement qui intègre de manière structurée les signaux des vérificateurs avec les scores des modèles de récompense. HERO utilise une normalisation stratifiée pour borner les scores des modèles de récompense au sein de groupes définis par les vérificateurs, préservant ainsi la correction tout en affinant les distinctions de qualité, et un pondération tenant compte de la variance pour mettre l'accent sur les prompts difficiles où les signaux denses sont les plus importants. Sur divers benchmarks de raisonnement mathématique, HERO surpasse systématiquement les bases de référence utilisant uniquement des modèles de récompense ou des vérificateurs, avec des gains significatifs sur les tâches vérifiables et difficiles à vérifier. Nos résultats montrent que la conception hybride des récompenses conserve la stabilité des vérificateurs tout en exploitant la nuance des modèles de récompense pour faire progresser le raisonnement.
English
Post-training for reasoning of large language models (LLMs) increasingly relies on verifiable rewards: deterministic checkers that provide 0-1 correctness signals. While reliable, such binary feedback is brittle--many tasks admit partially correct or alternative answers that verifiers under-credit, and the resulting all-or-nothing supervision limits learning. Reward models offer richer, continuous feedback, which can serve as a complementary supervisory signal to verifiers. We introduce HERO (Hybrid Ensemble Reward Optimization), a reinforcement learning framework that integrates verifier signals with reward-model scores in a structured way. HERO employs stratified normalization to bound reward-model scores within verifier-defined groups, preserving correctness while refining quality distinctions, and variance-aware weighting to emphasize challenging prompts where dense signals matter most. Across diverse mathematical reasoning benchmarks, HERO consistently outperforms RM-only and verifier-only baselines, with strong gains on both verifiable and hard-to-verify tasks. Our results show that hybrid reward design retains the stability of verifiers while leveraging the nuance of reward models to advance reasoning.
PDF262October 10, 2025