Rinforzo Ibrido: Quando la Ricompensa è Scarsa, è Meglio Essere Densi
Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
October 8, 2025
Autori: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI
Abstract
Il post-addestramento per il ragionamento dei grandi modelli linguistici (LLM) si basa sempre più su ricompense verificabili: controllori deterministici che forniscono segnali di correttezza binari (0-1). Sebbene affidabili, tali feedback binari sono rigidi: molti compiti ammettono risposte parzialmente corrette o alternative che i verificatori sottovalutano, e la supervisione del tipo "tutto o niente" risultante limita l'apprendimento. I modelli di ricompensa offrono feedback più ricchi e continui, che possono servire come segnale di supervisione complementare ai verificatori. Introduciamo HERO (Hybrid Ensemble Reward Optimization), un framework di apprendimento per rinforzo che integra in modo strutturato i segnali dei verificatori con i punteggi dei modelli di ricompensa. HERO utilizza una normalizzazione stratificata per limitare i punteggi dei modelli di ricompensa all'interno di gruppi definiti dai verificatori, preservando la correttezza mentre affina le distinzioni qualitative, e una ponderazione basata sulla varianza per enfatizzare i prompt più complessi dove i segnali densi sono più rilevanti. Su diversi benchmark di ragionamento matematico, HERO supera costantemente i baseline basati solo su modelli di ricompensa o solo su verificatori, con miglioramenti significativi sia su compiti verificabili che su quelli difficili da verificare. I nostri risultati dimostrano che un design ibrido delle ricompense mantiene la stabilità dei verificatori sfruttando al contempo la sfumatura dei modelli di ricompensa per migliorare il ragionamento.
English
Post-training for reasoning of large language models (LLMs) increasingly
relies on verifiable rewards: deterministic checkers that provide 0-1
correctness signals. While reliable, such binary feedback is brittle--many
tasks admit partially correct or alternative answers that verifiers
under-credit, and the resulting all-or-nothing supervision limits learning.
Reward models offer richer, continuous feedback, which can serve as a
complementary supervisory signal to verifiers. We introduce HERO (Hybrid
Ensemble Reward Optimization), a reinforcement learning framework that
integrates verifier signals with reward-model scores in a structured way. HERO
employs stratified normalization to bound reward-model scores within
verifier-defined groups, preserving correctness while refining quality
distinctions, and variance-aware weighting to emphasize challenging prompts
where dense signals matter most. Across diverse mathematical reasoning
benchmarks, HERO consistently outperforms RM-only and verifier-only baselines,
with strong gains on both verifiable and hard-to-verify tasks. Our results show
that hybrid reward design retains the stability of verifiers while leveraging
the nuance of reward models to advance reasoning.