ChatPaper.aiChatPaper

Modelo Unificado de Recompensa de Cadeia de Pensamento Multimodal por meio de Ajuste Fino por Reforço

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6, 2025
Autores: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

Resumo

Avanços recentes em Modelos de Recompensa (RMs) multimodais têm mostrado um potencial significativo para fornecer sinais de recompensa que alinham modelos de visão com as preferências humanas. No entanto, os RMs atuais geralmente estão restritos a fornecer respostas diretas ou a envolver-se em processos de raciocínio superficial com profundidade limitada, frequentemente resultando em sinais de recompensa imprecisos. Nós propomos que a incorporação de cadeias explícitas de pensamento (CoT) no processo de raciocínio de recompensa pode fortalecer significativamente sua confiabilidade e robustez. Além disso, acreditamos que, uma vez que os RMs internalizem o raciocínio CoT, a precisão de suas respostas diretas também pode ser melhorada por meio de capacidades de raciocínio implícito. Para tanto, este artigo propõe o UnifiedReward-Think, o primeiro modelo de recompensa multimodal unificado baseado em CoT, capaz de realizar raciocínio multidimensional e em cadeia longa passo a passo para tarefas de recompensa tanto de compreensão quanto de geração visual. Especificamente, adotamos uma abordagem de ajuste fino por reforço orientada por exploração para eliciar e incentivar a capacidade latente de raciocínio complexo do modelo: (1) Primeiro, usamos uma pequena quantidade de dados de preferência de geração de imagens para destilar o processo de raciocínio do GPT-4o, que é então utilizado para o início frio do modelo, permitindo que ele aprenda o formato e a estrutura do raciocínio CoT. (2) Em seguida, ao aproveitar o conhecimento prévio e as capacidades de generalização do modelo, preparamos um grande volume de dados de preferência multimodal unificada para eliciar o processo de raciocínio do modelo em várias tarefas visuais. Durante essa fase, as saídas de raciocínio corretas são retidas para amostragem por rejeição, refinando o modelo (3), enquanto as amostras previstas incorretas são finalmente usadas para o ajuste fino por reforço baseado em Otimização de Política Relativa em Grupo (GRPO), permitindo que o modelo explore diversos caminhos de raciocínio e otimize para soluções corretas e robustas. Experimentos extensivos em várias tarefas de recompensa visual demonstram a superioridade do nosso modelo.
English
Recent advances in multimodal Reward Models (RMs) have shown significant promise in delivering reward signals to align vision models with human preferences. However, current RMs are generally restricted to providing direct responses or engaging in shallow reasoning processes with limited depth, often leading to inaccurate reward signals. We posit that incorporating explicit long chains of thought (CoT) into the reward reasoning process can significantly strengthen their reliability and robustness. Furthermore, we believe that once RMs internalize CoT reasoning, their direct response accuracy can also be improved through implicit reasoning capabilities. To this end, this paper proposes UnifiedReward-Think, the first unified multimodal CoT-based reward model, capable of multi-dimensional, step-by-step long-chain reasoning for both visual understanding and generation reward tasks. Specifically, we adopt an exploration-driven reinforcement fine-tuning approach to elicit and incentivize the model's latent complex reasoning ability: (1) We first use a small amount of image generation preference data to distill the reasoning process of GPT-4o, which is then used for the model's cold start to learn the format and structure of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge and generalization capabilities, we prepare large-scale unified multimodal preference data to elicit the model's reasoning process across various vision tasks. During this phase, correct reasoning outputs are retained for rejection sampling to refine the model (3) while incorrect predicted samples are finally used for Group Relative Policy Optimization (GRPO) based reinforcement fine-tuning, enabling the model to explore diverse reasoning paths and optimize for correct and robust solutions. Extensive experiments across various vision reward tasks demonstrate the superiority of our model.
PDF923January 30, 2026