Modèle de Récompense Unifié à Chaîne de Pensée Multimodale par Réglage Fin par Renforcement
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
May 6, 2025
Auteurs: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Résumé
Les récents progrès dans les modèles de récompense multimodaux (RMs) ont montré un potentiel significatif pour fournir des signaux de récompense afin d'aligner les modèles visuels avec les préférences humaines. Cependant, les RMs actuels sont généralement limités à fournir des réponses directes ou à s'engager dans des processus de raisonnement superficiels avec une profondeur limitée, ce qui conduit souvent à des signaux de récompense inexacts. Nous postulons que l'intégration de chaînes de pensée explicites (CoT) dans le processus de raisonnement des récompenses peut considérablement renforcer leur fiabilité et leur robustesse. De plus, nous pensons qu'une fois que les RMs internalisent le raisonnement CoT, la précision de leurs réponses directes peut également être améliorée grâce à des capacités de raisonnement implicites. Dans cette optique, cet article propose UnifiedReward-Think, le premier modèle de récompense multimodal unifié basé sur CoT, capable de raisonnement multidimensionnel et étape par étape pour des tâches de récompense liées à la compréhension et à la génération visuelles. Plus précisément, nous adoptons une approche de réglage fin par renforcement axée sur l'exploration pour susciter et encourager la capacité de raisonnement complexe latente du modèle : (1) Nous utilisons d'abord une petite quantité de données de préférence de génération d'images pour distiller le processus de raisonnement de GPT-4o, qui est ensuite utilisé pour l'amorçage à froid du modèle afin d'apprendre le format et la structure du raisonnement CoT. (2) Ensuite, en exploitant les connaissances préalables et les capacités de généralisation du modèle, nous préparons des données de préférence multimodales unifiées à grande échelle pour susciter le processus de raisonnement du modèle à travers diverses tâches visuelles. Durant cette phase, les sorties de raisonnement correctes sont conservées pour un échantillonnage par rejet afin d'affiner le modèle (3) tandis que les échantillons prédits incorrects sont finalement utilisés pour un réglage fin par renforcement basé sur l'Optimisation Relative de Politique de Groupe (GRPO), permettant au modèle d'explorer divers chemins de raisonnement et d'optimiser pour des solutions correctes et robustes. Des expériences approfondies sur diverses tâches de récompense visuelle démontrent la supériorité de notre modèle.
English
Recent advances in multimodal Reward Models (RMs) have shown significant
promise in delivering reward signals to align vision models with human
preferences. However, current RMs are generally restricted to providing direct
responses or engaging in shallow reasoning processes with limited depth, often
leading to inaccurate reward signals. We posit that incorporating explicit long
chains of thought (CoT) into the reward reasoning process can significantly
strengthen their reliability and robustness. Furthermore, we believe that once
RMs internalize CoT reasoning, their direct response accuracy can also be
improved through implicit reasoning capabilities. To this end, this paper
proposes UnifiedReward-Think, the first unified multimodal CoT-based reward
model, capable of multi-dimensional, step-by-step long-chain reasoning for both
visual understanding and generation reward tasks. Specifically, we adopt an
exploration-driven reinforcement fine-tuning approach to elicit and incentivize
the model's latent complex reasoning ability: (1) We first use a small amount
of image generation preference data to distill the reasoning process of GPT-4o,
which is then used for the model's cold start to learn the format and structure
of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge
and generalization capabilities, we prepare large-scale unified multimodal
preference data to elicit the model's reasoning process across various vision
tasks. During this phase, correct reasoning outputs are retained for rejection
sampling to refine the model (3) while incorrect predicted samples are finally
used for Group Relative Policy Optimization (GRPO) based reinforcement
fine-tuning, enabling the model to explore diverse reasoning paths and optimize
for correct and robust solutions. Extensive experiments across various vision
reward tasks demonstrate the superiority of our model.Summary
AI-Generated Summary