За пределами масштабирования длины: синергия широты и глубины в генеративных моделях вознаграждения

Аннотация

Последние достижения в области генеративных моделей вознаграждения (Generative Reward Models, GRMs) показали, что масштабирование длины рассуждений по цепочке мыслей (Chain-of-Thought, CoT) существенно повышает надежность оценки. Однако современные работы в основном опираются на неструктурированное масштабирование длины, игнорируя различную эффективность разных механизмов рассуждения: CoT по ширине (B-CoT, т.е. охват многомерных принципов) и CoT по глубине (D-CoT, т.е. обоснованность содержательных суждений). Чтобы решить эту проблему, мы представляем Mix-GRM — фреймворк, который преобразует исходные обоснования в структурированные B-CoT и D-CoT с помощью модульного конвейера синтеза, а затем использует контролируемое тонкое настройку (Supervised Fine-Tuning, SFT) и обучение с подкреплением с верифицируемыми вознаграждениями (Reinforcement Learning with Verifiable Rewards, RLVR) для усвоения и оптимизации этих механизмов. Всесторонние эксперименты демонстрируют, что Mix-GRM устанавливает новое состояние искусства на пяти бенчмарках, превосходя ведущие модели с открытым исходным кодом в среднем на 8.2%. Наши результаты выявляют четкое различие в рассуждениях: B-CoT полезен для задач субъективных предпочтений, тогда как D-CoT превосходит в задачах объективной правильности. Следовательно, несоответствие механизма рассуждения задаче напрямую снижает производительность. Кроме того, мы показываем, что RLVR действует как переключающий усилитель, вызывая emergent-поляризацию, при которой модель спонтанно распределяет свой стиль рассуждения в соответствии с требованиями задачи. Синтезированные данные и модели опубликованы по адресу https://huggingface.co/collections/DonJoey/mix-grm, а код доступен по адресу https://github.com/Don-Joey/Mix-GRM.

English

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, and the code is released at https://github.com/Don-Joey/Mix-GRM{Github}.

За пределами масштабирования длины: синергия широты и глубины в генеративных моделях вознаграждения

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Аннотация

Support