Refuerzo Híbrido: Cuando la Recompensa es Escasa, es Mejor Ser Denso
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
October 8, 2025
Autores: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI
Resumen
El entrenamiento posterior para el razonamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) depende cada vez más de recompensas verificables: verificadores deterministas que proporcionan señales de corrección binarias (0-1). Aunque confiables, este tipo de retroalimentación binaria es frágil: muchas tareas admiten respuestas parcialmente correctas o alternativas que los verificadores subestiman, y la supervisión de todo o nada resultante limita el aprendizaje. Los modelos de recompensa ofrecen una retroalimentación más rica y continua, que puede servir como una señal de supervisión complementaria a los verificadores. Presentamos HERO (Optimización Híbrida de Recompensas por Ensamblaje), un marco de aprendizaje por refuerzo que integra las señales de los verificadores con las puntuaciones de los modelos de recompensa de manera estructurada. HERO emplea normalización estratificada para acotar las puntuaciones de los modelos de recompensa dentro de grupos definidos por los verificadores, preservando la corrección mientras refina las distinciones de calidad, y ponderación consciente de la varianza para enfatizar las indicaciones desafiantes donde las señales densas son más importantes. En diversos puntos de referencia de razonamiento matemático, HERO supera consistentemente las líneas base que utilizan solo modelos de recompensa o solo verificadores, con ganancias significativas tanto en tareas verificables como en aquellas difíciles de verificar. Nuestros resultados muestran que el diseño híbrido de recompensas mantiene la estabilidad de los verificadores mientras aprovecha la sutileza de los modelos de recompensa para avanzar en el razonamiento.
English
Post-training for reasoning of large language models (LLMs) increasingly
relies on verifiable rewards: deterministic checkers that provide 0-1
correctness signals. While reliable, such binary feedback is brittle--many
tasks admit partially correct or alternative answers that verifiers
under-credit, and the resulting all-or-nothing supervision limits learning.
Reward models offer richer, continuous feedback, which can serve as a
complementary supervisory signal to verifiers. We introduce HERO (Hybrid
Ensemble Reward Optimization), a reinforcement learning framework that
integrates verifier signals with reward-model scores in a structured way. HERO
employs stratified normalization to bound reward-model scores within
verifier-defined groups, preserving correctness while refining quality
distinctions, and variance-aware weighting to emphasize challenging prompts
where dense signals matter most. Across diverse mathematical reasoning
benchmarks, HERO consistently outperforms RM-only and verifier-only baselines,
with strong gains on both verifiable and hard-to-verify tasks. Our results show
that hybrid reward design retains the stability of verifiers while leveraging
the nuance of reward models to advance reasoning.