Refuerzo Híbrido: Cuando la Recompensa es Escasa, es Mejor Ser Denso

Resumen

El entrenamiento posterior para el razonamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) depende cada vez más de recompensas verificables: verificadores deterministas que proporcionan señales de corrección binarias (0-1). Aunque confiables, este tipo de retroalimentación binaria es frágil: muchas tareas admiten respuestas parcialmente correctas o alternativas que los verificadores subestiman, y la supervisión de todo o nada resultante limita el aprendizaje. Los modelos de recompensa ofrecen una retroalimentación más rica y continua, que puede servir como una señal de supervisión complementaria a los verificadores. Presentamos HERO (Optimización Híbrida de Recompensas por Ensamblaje), un marco de aprendizaje por refuerzo que integra las señales de los verificadores con las puntuaciones de los modelos de recompensa de manera estructurada. HERO emplea normalización estratificada para acotar las puntuaciones de los modelos de recompensa dentro de grupos definidos por los verificadores, preservando la corrección mientras refina las distinciones de calidad, y ponderación consciente de la varianza para enfatizar las indicaciones desafiantes donde las señales densas son más importantes. En diversos puntos de referencia de razonamiento matemático, HERO supera consistentemente las líneas base que utilizan solo modelos de recompensa o solo verificadores, con ganancias significativas tanto en tareas verificables como en aquellas difíciles de verificar. Nuestros resultados muestran que el diseño híbrido de recompensas mantiene la estabilidad de los verificadores mientras aprovecha la sutileza de los modelos de recompensa para avanzar en el razonamiento.

English

Post-training for reasoning of large language models (LLMs) increasingly relies on verifiable rewards: deterministic checkers that provide 0-1 correctness signals. While reliable, such binary feedback is brittle--many tasks admit partially correct or alternative answers that verifiers under-credit, and the resulting all-or-nothing supervision limits learning. Reward models offer richer, continuous feedback, which can serve as a complementary supervisory signal to verifiers. We introduce HERO (Hybrid Ensemble Reward Optimization), a reinforcement learning framework that integrates verifier signals with reward-model scores in a structured way. HERO employs stratified normalization to bound reward-model scores within verifier-defined groups, preserving correctness while refining quality distinctions, and variance-aware weighting to emphasize challenging prompts where dense signals matter most. Across diverse mathematical reasoning benchmarks, HERO consistently outperforms RM-only and verifier-only baselines, with strong gains on both verifiable and hard-to-verify tasks. Our results show that hybrid reward design retains the stability of verifiers while leveraging the nuance of reward models to advance reasoning.

Refuerzo Híbrido: Cuando la Recompensa es Escasa, es Mejor Ser Denso

Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

Resumen

Support