Reforço Híbrido: Quando a Recompensa é Escassa, É Melhor Ser Denso
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
October 8, 2025
Autores: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI
Resumo
O pós-treinamento para raciocínio de modelos de linguagem de grande escala (LLMs) depende cada vez mais de recompensas verificáveis: verificadores determinísticos que fornecem sinais de correção binários (0-1). Embora confiáveis, esse feedback binário é frágil—muitas tarefas admitem respostas parcialmente corretas ou alternativas que os verificadores subvalorizam, e a supervisão do tipo "tudo ou nada" resultante limita o aprendizado. Modelos de recompensa oferecem feedback mais rico e contínuo, que pode servir como um sinal de supervisão complementar aos verificadores. Apresentamos o HERO (Hybrid Ensemble Reward Optimization), um framework de aprendizado por reforço que integra sinais de verificadores com pontuações de modelos de recompensa de forma estruturada. O HERO emprega normalização estratificada para limitar as pontuações dos modelos de recompensa dentro de grupos definidos pelos verificadores, preservando a correção enquanto refina distinções de qualidade, e ponderação consciente da variância para enfatizar prompts desafiadores onde sinais densos são mais importantes. Em diversos benchmarks de raciocínio matemático, o HERO supera consistentemente as abordagens baseadas apenas em modelos de recompensa (RM-only) e apenas em verificadores (verifier-only), com ganhos significativos tanto em tarefas verificáveis quanto em tarefas difíceis de verificar. Nossos resultados mostram que o design híbrido de recompensas mantém a estabilidade dos verificadores enquanto aproveita a nuance dos modelos de recompensa para avançar o raciocínio.
English
Post-training for reasoning of large language models (LLMs) increasingly
relies on verifiable rewards: deterministic checkers that provide 0-1
correctness signals. While reliable, such binary feedback is brittle--many
tasks admit partially correct or alternative answers that verifiers
under-credit, and the resulting all-or-nothing supervision limits learning.
Reward models offer richer, continuous feedback, which can serve as a
complementary supervisory signal to verifiers. We introduce HERO (Hybrid
Ensemble Reward Optimization), a reinforcement learning framework that
integrates verifier signals with reward-model scores in a structured way. HERO
employs stratified normalization to bound reward-model scores within
verifier-defined groups, preserving correctness while refining quality
distinctions, and variance-aware weighting to emphasize challenging prompts
where dense signals matter most. Across diverse mathematical reasoning
benchmarks, HERO consistently outperforms RM-only and verifier-only baselines,
with strong gains on both verifiable and hard-to-verify tasks. Our results show
that hybrid reward design retains the stability of verifiers while leveraging
the nuance of reward models to advance reasoning.