Oltre la Scalabilità in Lunghezza: Sinergia tra Ampiezza e Profondità per Modelli di Ricompensa Generativi

Abstract

I recenti progressi nei Modelli di Ricompensa Generativi (GRM) hanno dimostrato che aumentare la lunghezza del ragionamento a Catena di Pensiero (CoT) migliora considerevolmente l'affidabilità della valutazione. Tuttavia, i lavori attuali si basano prevalentemente su un aumento di lunghezza non strutturato, tralasciando la diversa efficacia di diversi meccanismi di ragionamento: Breadth-CoT (B-CoT, cioè copertura multidimensionale dei principi) e Depth-CoT (D-CoT, cioè solidità del giudizio sostanziale). Per affrontare ciò, introduciamo Mix-GRM, un framework che riconfigura le ragioni grezze in B-CoT e D-CoT strutturati attraverso una pipeline di sintesi modulare, impiegando successivamente Fine-Tuning Supervisionato (SFT) e Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) per interiorizzare e ottimizzare questi meccanismi. Esperimenti completi dimostrano che Mix-GRM stabilisce un nuovo stato dell'arte su cinque benchmark, superando i principali RM open-source in media dell'8,2%. I nostri risultati rivelano una chiara divergenza nel ragionamento: il B-CoT beneficia compiti di preferenza soggettiva, mentre il D-CoT eccelle in compiti di correttezza oggettiva. Di conseguenza, un disallineamento tra il meccanismo di ragionamento e il compito degrada direttamente le prestazioni. Inoltre, dimostriamo che l'RLVR agisce come un amplificatore di commutazione, inducendo una polarizzazione emergente in cui il modello assegna spontaneamente il proprio stile di ragionamento per soddisfare le richieste del compito. I dati e i modelli sintetizzati sono rilasciati su https://huggingface.co/collections/DonJoey/mix-grm, e il codice è rilasciato su https://github.com/Don-Joey/Mix-GRM.

English

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, and the code is released at https://github.com/Don-Joey/Mix-GRM{Github}.

Oltre la Scalabilità in Lunghezza: Sinergia tra Ampiezza e Profondità per Modelli di Ricompensa Generativi

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Abstract

Support