ChatPaper.aiChatPaper

Modello Unificato di Ricompensa a Catena di Pensiero Multimodale attraverso il Fine-Tuning con Rinforzo

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6, 2025
Autori: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

Abstract

I recenti progressi nei modelli di ricompensa multimodali (RMs) hanno mostrato un significativo potenziale nel fornire segnali di ricompensa per allineare i modelli visivi con le preferenze umane. Tuttavia, gli attuali RMs sono generalmente limitati a fornire risposte dirette o a impegnarsi in processi di ragionamento superficiali con una profondità limitata, spesso portando a segnali di ricompensa inaccurati. Proponiamo che l'incorporazione di esplicite catene di pensiero (CoT) nel processo di ragionamento della ricompensa possa rafforzare significativamente la loro affidabilità e robustezza. Inoltre, riteniamo che una volta che i RMs internalizzino il ragionamento CoT, la loro accuratezza nelle risposte dirette possa essere migliorata anche attraverso capacità di ragionamento implicito. A tal fine, questo articolo propone UnifiedReward-Think, il primo modello di ricompensa multimodale unificato basato su CoT, capace di ragionamento multidimensionale e passo-passo a catena lunga sia per compiti di comprensione visiva che di generazione di ricompensa. Nello specifico, adottiamo un approccio di fine-tuning a rinforzo guidato dall'esplorazione per elicitare e incentivare la capacità latente di ragionamento complesso del modello: (1) Utilizziamo inizialmente una piccola quantità di dati di preferenza per la generazione di immagini per distillare il processo di ragionamento di GPT-4o, che viene poi utilizzato per l'avvio a freddo del modello per apprendere il formato e la struttura del ragionamento CoT. (2) Successivamente, sfruttando la conoscenza pregressa e le capacità di generalizzazione del modello, prepariamo dati di preferenza multimodali unificati su larga scala per elicitare il processo di ragionamento del modello su vari compiti visivi. Durante questa fase, gli output di ragionamento corretti vengono conservati per il campionamento di rifiuto per affinare il modello (3) mentre i campioni previsti errati vengono infine utilizzati per il fine-tuning a rinforzo basato su Group Relative Policy Optimization (GRPO), consentendo al modello di esplorare percorsi di ragionamento diversi e ottimizzare per soluzioni corrette e robuste. Esperimenti estesi su vari compiti di ricompensa visiva dimostrano la superiorità del nostro modello.
English
Recent advances in multimodal Reward Models (RMs) have shown significant promise in delivering reward signals to align vision models with human preferences. However, current RMs are generally restricted to providing direct responses or engaging in shallow reasoning processes with limited depth, often leading to inaccurate reward signals. We posit that incorporating explicit long chains of thought (CoT) into the reward reasoning process can significantly strengthen their reliability and robustness. Furthermore, we believe that once RMs internalize CoT reasoning, their direct response accuracy can also be improved through implicit reasoning capabilities. To this end, this paper proposes UnifiedReward-Think, the first unified multimodal CoT-based reward model, capable of multi-dimensional, step-by-step long-chain reasoning for both visual understanding and generation reward tasks. Specifically, we adopt an exploration-driven reinforcement fine-tuning approach to elicit and incentivize the model's latent complex reasoning ability: (1) We first use a small amount of image generation preference data to distill the reasoning process of GPT-4o, which is then used for the model's cold start to learn the format and structure of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge and generalization capabilities, we prepare large-scale unified multimodal preference data to elicit the model's reasoning process across various vision tasks. During this phase, correct reasoning outputs are retained for rejection sampling to refine the model (3) while incorrect predicted samples are finally used for Group Relative Policy Optimization (GRPO) based reinforcement fine-tuning, enabling the model to explore diverse reasoning paths and optimize for correct and robust solutions. Extensive experiments across various vision reward tasks demonstrate the superiority of our model.
PDF943May 7, 2025