Modelo Unificado de Recompensa de Cadeia de Pensamento Multimodal por meio de Ajuste Fino por Reforço
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
May 6, 2025
Autores: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Resumo
Avanços recentes em Modelos de Recompensa (RMs) multimodais têm mostrado um potencial significativo para fornecer sinais de recompensa que alinham modelos de visão com as preferências humanas. No entanto, os RMs atuais geralmente estão restritos a fornecer respostas diretas ou a envolver-se em processos de raciocínio superficial com profundidade limitada, frequentemente resultando em sinais de recompensa imprecisos. Nós propomos que a incorporação de cadeias explícitas de pensamento (CoT) no processo de raciocínio de recompensa pode fortalecer significativamente sua confiabilidade e robustez. Além disso, acreditamos que, uma vez que os RMs internalizem o raciocínio CoT, a precisão de suas respostas diretas também pode ser melhorada por meio de capacidades de raciocínio implícito. Para tanto, este artigo propõe o UnifiedReward-Think, o primeiro modelo de recompensa multimodal unificado baseado em CoT, capaz de realizar raciocínio multidimensional e em cadeia longa passo a passo para tarefas de recompensa tanto de compreensão quanto de geração visual. Especificamente, adotamos uma abordagem de ajuste fino por reforço orientada por exploração para eliciar e incentivar a capacidade latente de raciocínio complexo do modelo: (1) Primeiro, usamos uma pequena quantidade de dados de preferência de geração de imagens para destilar o processo de raciocínio do GPT-4o, que é então utilizado para o início frio do modelo, permitindo que ele aprenda o formato e a estrutura do raciocínio CoT. (2) Em seguida, ao aproveitar o conhecimento prévio e as capacidades de generalização do modelo, preparamos um grande volume de dados de preferência multimodal unificada para eliciar o processo de raciocínio do modelo em várias tarefas visuais. Durante essa fase, as saídas de raciocínio corretas são retidas para amostragem por rejeição, refinando o modelo (3), enquanto as amostras previstas incorretas são finalmente usadas para o ajuste fino por reforço baseado em Otimização de Política Relativa em Grupo (GRPO), permitindo que o modelo explore diversos caminhos de raciocínio e otimize para soluções corretas e robustas. Experimentos extensivos em várias tarefas de recompensa visual demonstram a superioridade do nosso modelo.
English
Recent advances in multimodal Reward Models (RMs) have shown significant
promise in delivering reward signals to align vision models with human
preferences. However, current RMs are generally restricted to providing direct
responses or engaging in shallow reasoning processes with limited depth, often
leading to inaccurate reward signals. We posit that incorporating explicit long
chains of thought (CoT) into the reward reasoning process can significantly
strengthen their reliability and robustness. Furthermore, we believe that once
RMs internalize CoT reasoning, their direct response accuracy can also be
improved through implicit reasoning capabilities. To this end, this paper
proposes UnifiedReward-Think, the first unified multimodal CoT-based reward
model, capable of multi-dimensional, step-by-step long-chain reasoning for both
visual understanding and generation reward tasks. Specifically, we adopt an
exploration-driven reinforcement fine-tuning approach to elicit and incentivize
the model's latent complex reasoning ability: (1) We first use a small amount
of image generation preference data to distill the reasoning process of GPT-4o,
which is then used for the model's cold start to learn the format and structure
of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge
and generalization capabilities, we prepare large-scale unified multimodal
preference data to elicit the model's reasoning process across various vision
tasks. During this phase, correct reasoning outputs are retained for rejection
sampling to refine the model (3) while incorrect predicted samples are finally
used for Group Relative Policy Optimization (GRPO) based reinforcement
fine-tuning, enabling the model to explore diverse reasoning paths and optimize
for correct and robust solutions. Extensive experiments across various vision
reward tasks demonstrate the superiority of our model.