Verenigd Multimodaal Ketendenk-Beloningsmodel via Reinforcement Fine-Tuning
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
May 6, 2025
Auteurs: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Samenvatting
Recente vooruitgang in multimodale Beloningsmodellen (RMs) heeft aanzienlijke belofte getoond in het leveren van beloningssignalen om visuele modellen af te stemmen op menselijke voorkeuren. Huidige RMs zijn echter over het algemeen beperkt tot het geven van directe reacties of het betrokken zijn bij oppervlakkige redeneerprocessen met beperkte diepte, wat vaak leidt tot onnauwkeurige beloningssignalen. Wij stellen dat het incorporeren van expliciete lange ketens van gedachten (CoT) in het beloningsredeneerproces de betrouwbaarheid en robuustheid ervan aanzienlijk kan versterken. Bovendien geloven wij dat zodra RMs CoT-redenering internaliseren, hun directe reactienauwkeurigheid ook kan worden verbeterd door impliciete redeneercapaciteiten. Hiertoe stelt dit artikel UnifiedReward-Think voor, het eerste verenigde multimodale CoT-gebaseerde beloningsmodel, in staat tot multidimensionale, stapsgewijze lange-ketenredenering voor zowel visuele begrips- als generatiebeloningstaken. Specifiek hanteren wij een exploratiegedreven versterkingsfine-tuningbenadering om het latente complexe redeneervermogen van het model te ontlokken en te stimuleren: (1) We gebruiken eerst een kleine hoeveelheid voorkeursdata voor beeldgeneratie om het redeneerproces van GPT-4o te destilleren, dat vervolgens wordt gebruikt voor de koude start van het model om het formaat en de structuur van CoT-redenering te leren. (2) Vervolgens benutten we de voorkennis en generalisatiecapaciteiten van het model om grootschalige verenigde multimodale voorkeursdata voor te bereiden om het redeneerproces van het model over diverse visietaken te ontlokken. Tijdens deze fase worden correcte redeneeruitkomsten behouden voor afwijzingssteekproeven om het model te verfijnen (3) terwijl incorrecte voorspelde steekproeven uiteindelijk worden gebruikt voor op Groepsrelatief Beleidsoptimalisatie (GRPO) gebaseerde versterkingsfine-tuning, waardoor het model diverse redeneerpaden kan verkennen en kan optimaliseren voor correcte en robuuste oplossingen. Uitgebreide experimenten over diverse visiebeloningstaken demonstreren de superioriteit van ons model.
English
Recent advances in multimodal Reward Models (RMs) have shown significant
promise in delivering reward signals to align vision models with human
preferences. However, current RMs are generally restricted to providing direct
responses or engaging in shallow reasoning processes with limited depth, often
leading to inaccurate reward signals. We posit that incorporating explicit long
chains of thought (CoT) into the reward reasoning process can significantly
strengthen their reliability and robustness. Furthermore, we believe that once
RMs internalize CoT reasoning, their direct response accuracy can also be
improved through implicit reasoning capabilities. To this end, this paper
proposes UnifiedReward-Think, the first unified multimodal CoT-based reward
model, capable of multi-dimensional, step-by-step long-chain reasoning for both
visual understanding and generation reward tasks. Specifically, we adopt an
exploration-driven reinforcement fine-tuning approach to elicit and incentivize
the model's latent complex reasoning ability: (1) We first use a small amount
of image generation preference data to distill the reasoning process of GPT-4o,
which is then used for the model's cold start to learn the format and structure
of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge
and generalization capabilities, we prepare large-scale unified multimodal
preference data to elicit the model's reasoning process across various vision
tasks. During this phase, correct reasoning outputs are retained for rejection
sampling to refine the model (3) while incorrect predicted samples are finally
used for Group Relative Policy Optimization (GRPO) based reinforcement
fine-tuning, enabling the model to explore diverse reasoning paths and optimize
for correct and robust solutions. Extensive experiments across various vision
reward tasks demonstrate the superiority of our model.