Além da Escala de Comprimento: Sinergizando Amplitude e Profundidade para Modelos de Recompensa Generativos

Resumo

Avanços recentes em Modelos de Recompensa Generativos (GRMs) demonstraram que a escalagem do comprimento do raciocínio em Cadeia de Pensamento (CoT) aumenta consideravelmente a confiabilidade da avaliação. No entanto, os trabalhos atuais dependem predominantemente de escalagem de comprimento não estruturada, ignorando a eficácia divergente de diferentes mecanismos de raciocínio: CoT de Largura (B-CoT, ou seja, cobertura multidimensional de princípios) e CoT de Profundidade (D-CoT, ou seja, solidez de julgamento substantivo). Para resolver isso, introduzimos o Mix-GRM, uma estrutura que reconfigura racionais brutos em B-CoT e D-CoT estruturados por meio de um pipeline de síntese modular, empregando subsequentemente Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para internalizar e otimizar esses mecanismos. Experimentos abrangentes demonstram que o Mix-GRM estabelece um novo estado da arte em cinco benchmarks, superando os principais RMs de código aberto em uma média de 8,2%. Nossos resultados revelam uma divergência clara no raciocínio: o B-CoT beneficia tarefas de preferência subjetiva, enquanto o D-CoT se destaca em tarefas de correção objetiva. Consequentemente, o desalinhamento do mecanismo de raciocínio com a tarefa degrada diretamente o desempenho. Além disso, demonstramos que o RLVR atua como um amplificador de chaveamento, induzindo uma polarização emergente em que o modelo aloca espontaneamente seu estilo de raciocínio para corresponder às demandas da tarefa. Os dados e modelos sintetizados são disponibilizados em https://huggingface.co/collections/DonJoey/mix-grm, e o código é disponibilizado em https://github.com/Don-Joey/Mix-GRM.

English

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, and the code is released at https://github.com/Don-Joey/Mix-GRM{Github}.

Além da Escala de Comprimento: Sinergizando Amplitude e Profundidade para Modelos de Recompensa Generativos

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Resumo

Support