Modèle de Récompense Unifié à Chaîne de Pensée Multimodale par Réglage Fin par Renforcement

papers.abstract

Les récents progrès dans les modèles de récompense multimodaux (RMs) ont montré un potentiel significatif pour fournir des signaux de récompense afin d'aligner les modèles visuels avec les préférences humaines. Cependant, les RMs actuels sont généralement limités à fournir des réponses directes ou à s'engager dans des processus de raisonnement superficiels avec une profondeur limitée, ce qui conduit souvent à des signaux de récompense inexacts. Nous postulons que l'intégration de chaînes de pensée explicites (CoT) dans le processus de raisonnement des récompenses peut considérablement renforcer leur fiabilité et leur robustesse. De plus, nous pensons qu'une fois que les RMs internalisent le raisonnement CoT, la précision de leurs réponses directes peut également être améliorée grâce à des capacités de raisonnement implicites. Dans cette optique, cet article propose UnifiedReward-Think, le premier modèle de récompense multimodal unifié basé sur CoT, capable de raisonnement multidimensionnel et étape par étape pour des tâches de récompense liées à la compréhension et à la génération visuelles. Plus précisément, nous adoptons une approche de réglage fin par renforcement axée sur l'exploration pour susciter et encourager la capacité de raisonnement complexe latente du modèle : (1) Nous utilisons d'abord une petite quantité de données de préférence de génération d'images pour distiller le processus de raisonnement de GPT-4o, qui est ensuite utilisé pour l'amorçage à froid du modèle afin d'apprendre le format et la structure du raisonnement CoT. (2) Ensuite, en exploitant les connaissances préalables et les capacités de généralisation du modèle, nous préparons des données de préférence multimodales unifiées à grande échelle pour susciter le processus de raisonnement du modèle à travers diverses tâches visuelles. Durant cette phase, les sorties de raisonnement correctes sont conservées pour un échantillonnage par rejet afin d'affiner le modèle (3) tandis que les échantillons prédits incorrects sont finalement utilisés pour un réglage fin par renforcement basé sur l'Optimisation Relative de Politique de Groupe (GRPO), permettant au modèle d'explorer divers chemins de raisonnement et d'optimiser pour des solutions correctes et robustes. Des expériences approfondies sur diverses tâches de récompense visuelle démontrent la supériorité de notre modèle.

English

Recent advances in multimodal Reward Models (RMs) have shown significant promise in delivering reward signals to align vision models with human preferences. However, current RMs are generally restricted to providing direct responses or engaging in shallow reasoning processes with limited depth, often leading to inaccurate reward signals. We posit that incorporating explicit long chains of thought (CoT) into the reward reasoning process can significantly strengthen their reliability and robustness. Furthermore, we believe that once RMs internalize CoT reasoning, their direct response accuracy can also be improved through implicit reasoning capabilities. To this end, this paper proposes UnifiedReward-Think, the first unified multimodal CoT-based reward model, capable of multi-dimensional, step-by-step long-chain reasoning for both visual understanding and generation reward tasks. Specifically, we adopt an exploration-driven reinforcement fine-tuning approach to elicit and incentivize the model's latent complex reasoning ability: (1) We first use a small amount of image generation preference data to distill the reasoning process of GPT-4o, which is then used for the model's cold start to learn the format and structure of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge and generalization capabilities, we prepare large-scale unified multimodal preference data to elicit the model's reasoning process across various vision tasks. During this phase, correct reasoning outputs are retained for rejection sampling to refine the model (3) while incorrect predicted samples are finally used for Group Relative Policy Optimization (GRPO) based reinforcement fine-tuning, enabling the model to explore diverse reasoning paths and optimize for correct and robust solutions. Extensive experiments across various vision reward tasks demonstrate the superiority of our model.

Modèle de Récompense Unifié à Chaîne de Pensée Multimodale par Réglage Fin par Renforcement

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

papers.abstract

Support