Jenseits der Längenskalierung: Synergie von Breite und Tiefe für generative Belohnungsmodelle

Zusammenfassung

Jüngste Fortschritte bei Generativen Belohnungsmodellen (GRMs) haben gezeigt, dass die Skalierung der Länge von Chain-of-Thought (CoT)-Argumentation die Zuverlässigkeit der Bewertung erheblich verbessert. Allerdings stützen sich aktuelle Arbeiten überwiegend auf unstrukturierte Längenskalierung und ignorieren die unterschiedliche Wirksamkeit verschiedener Argumentationsmechanismen: Breiten-CoT (B-CoT, d.h. mehrdimensionale Prinzipienabdeckung) und Tiefen-CoT (D-CoT, d.h. substanzielle Urteilsstichhaltigkeit). Um dies zu adressieren, führen wir Mix-GRM ein, ein Framework, das Rohrationalen durch eine modulare Synthese-Pipeline in strukturiertes B-CoT und D-CoT rekonfiguriert und anschließend Supervised Fine-Tuning (SFT) und Reinforcement Learning with Verifiable Rewards (RLVR) einsetzt, um diese Mechanismen zu internalisieren und zu optimieren. Umfassende Experimente belegen, dass Mix-GRM einen neuen State-of-the-Art auf fünf Benchmarks etabliert und führende Open-Source-RMs im Durchschnitt um 8,2 % übertrifft. Unsere Ergebnisse zeigen eine klare Divergenz in der Argumentation: B-CoT profitiert subjektive Präferenzaufgaben, während D-CoT bei objektiven Korrektheitsaufgaben überzeugt. Folglich verschlechtert eine Fehlausrichtung des Argumentationsmechanismus mit der Aufgabe direkt die Leistung. Darüber hinaus demonstrieren wir, dass RLVR als Schaltverstärker wirkt und eine emergente Polarisierung induziert, bei der das Modell spontan seinen Argumentationsstil zur Erfüllung der Aufgabenanforderungen zuteilt. Die synthetisierten Daten und Modelle sind unter https://huggingface.co/collections/DonJoey/mix-grm veröffentlicht, und der Code ist unter https://github.com/Don-Joey/Mix-GRM verfügbar.

English

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, and the code is released at https://github.com/Don-Joey/Mix-GRM{Github}.

Jenseits der Längenskalierung: Synergie von Breite und Tiefe für generative Belohnungsmodelle

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Zusammenfassung

Support