Voorbij Lengteschaling: Synergie tussen Breedte en Diepte voor Generatieve Beloningsmodellen

Samenvatting

Recente ontwikkelingen in Generatieve Beloningsmodellen (GRM's) hebben aangetoond dat het opschalen van de lengte van Chain-of-Thought (CoT)-redeneringen de betrouwbaarheid van evaluatie aanzienlijk verbetert. Huidige onderzoeken vertrouwen echter voornamelijk op ongestructureerde lengteschaling en negeren de uiteenlopende effectiviteit van verschillende redeneermechanismen: Breedte-CoT (B-CoT, d.w.z. multidimensionale dekking van principes) en Diepte-CoT (D-CoT, d.w.z. deugdelijkheid van substantieve oordelen). Om dit aan te pakken, introduceren we Mix-GRM, een raamwerk dat ruwe redeneringen herstructureert tot gestructureerde B-CoT en D-CoT via een modulaire synthesepijplijn, en vervolgens gebruikmaakt van Supervised Fine-Tuning (SFT) en Reinforcement Learning with Verifiable Rewards (RLVR) om deze mechanismen te internaliseren en optimaliseren. Uitgebreide experimenten tonen aan dat Mix-GRM een nieuwe state-of-the-art vestigt op vijf benchmarks, met een gemiddelde verbetering van 8,2% ten opzichte van toonaangevende open-source GRM's. Onze resultaten onthullen een duidelijke divergentie in redeneren: B-CoT is voordelig voor taken met subjectieve voorkeuren, terwijl D-CoT uitblinkt in taken met objectieve correctheid. Bijgevolg leidt een verkeerde afstemming van het redeneermechanisme op de taak direct tot prestatievermindering. Verder demonstreren we dat RLVR fungeert als een schakelende versterker, die een emergente polarisatie induceert waarbij het model spontaan zijn redeneerstijl toewijst om aan taakeisen te voldoen. De gesynthetiseerde data en modellen zijn vrijgegeven op https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, en de code is vrijgegeven op https://github.com/Don-Joey/Mix-GRM{Github}.

English

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, and the code is released at https://github.com/Don-Joey/Mix-GRM{Github}.

Voorbij Lengteschaling: Synergie tussen Breedte en Diepte voor Generatieve Beloningsmodellen

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Samenvatting

Support