Modelo Unificado de Recompensa de Cadena de Pensamiento Multimodal mediante Ajuste Fino por Refuerzo
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
May 6, 2025
Autores: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Resumen
Los recientes avances en los Modelos de Recompensa (RMs) multimodales han mostrado un potencial significativo para proporcionar señales de recompensa que alineen los modelos de visión con las preferencias humanas. Sin embargo, los RMs actuales generalmente se limitan a ofrecer respuestas directas o a participar en procesos de razonamiento superficial con poca profundidad, lo que a menudo conduce a señales de recompensa inexactas. Postulamos que la incorporación de cadenas de pensamiento (CoT) explícitas y extensas en el proceso de razonamiento de la recompensa puede fortalecer significativamente su fiabilidad y robustez. Además, creemos que una vez que los RMs internalicen el razonamiento CoT, la precisión de sus respuestas directas también puede mejorar a través de capacidades de razonamiento implícito. Con este fin, este artículo propone UnifiedReward-Think, el primer modelo de recompensa multimodal unificado basado en CoT, capaz de realizar un razonamiento paso a paso y de cadena larga en múltiples dimensiones para tareas de recompensa tanto de comprensión como de generación visual. Específicamente, adoptamos un enfoque de ajuste fino por refuerzo basado en la exploración para elicitar e incentivar la capacidad latente de razonamiento complejo del modelo: (1) Primero utilizamos una pequeña cantidad de datos de preferencia de generación de imágenes para destilar el proceso de razonamiento de GPT-4o, que luego se utiliza para el arranque en frío del modelo, permitiéndole aprender el formato y la estructura del razonamiento CoT. (2) Posteriormente, aprovechando el conocimiento previo y las capacidades de generalización del modelo, preparamos datos de preferencia multimodal unificados a gran escala para elicitar el proceso de razonamiento del modelo en diversas tareas de visión. Durante esta fase, se retienen las salidas de razonamiento correctas para realizar un muestreo por rechazo y refinar el modelo (3), mientras que las muestras predichas incorrectas se utilizan finalmente para el ajuste fino por refuerzo basado en la Optimización de Política Relativa de Grupo (GRPO), permitiendo que el modelo explore diversas rutas de razonamiento y optimice para soluciones correctas y robustas. Experimentos exhaustivos en diversas tareas de recompensa visual demuestran la superioridad de nuestro modelo.
English
Recent advances in multimodal Reward Models (RMs) have shown significant
promise in delivering reward signals to align vision models with human
preferences. However, current RMs are generally restricted to providing direct
responses or engaging in shallow reasoning processes with limited depth, often
leading to inaccurate reward signals. We posit that incorporating explicit long
chains of thought (CoT) into the reward reasoning process can significantly
strengthen their reliability and robustness. Furthermore, we believe that once
RMs internalize CoT reasoning, their direct response accuracy can also be
improved through implicit reasoning capabilities. To this end, this paper
proposes UnifiedReward-Think, the first unified multimodal CoT-based reward
model, capable of multi-dimensional, step-by-step long-chain reasoning for both
visual understanding and generation reward tasks. Specifically, we adopt an
exploration-driven reinforcement fine-tuning approach to elicit and incentivize
the model's latent complex reasoning ability: (1) We first use a small amount
of image generation preference data to distill the reasoning process of GPT-4o,
which is then used for the model's cold start to learn the format and structure
of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge
and generalization capabilities, we prepare large-scale unified multimodal
preference data to elicit the model's reasoning process across various vision
tasks. During this phase, correct reasoning outputs are retained for rejection
sampling to refine the model (3) while incorrect predicted samples are finally
used for Group Relative Policy Optimization (GRPO) based reinforcement
fine-tuning, enabling the model to explore diverse reasoning paths and optimize
for correct and robust solutions. Extensive experiments across various vision
reward tasks demonstrate the superiority of our model.Summary
AI-Generated Summary