Einheitliches multimodales Chain-of-Thought-Belohnungsmodell durch Reinforcement-Fine-Tuning
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
May 6, 2025
Autoren: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei multimodalen Belohnungsmodellen (Reward Models, RMs) haben großes Potenzial gezeigt, Belohnungssignale zu liefern, um Vision-Modelle mit menschlichen Präferenzen in Einklang zu bringen. Allerdings sind aktuelle RMs in der Regel darauf beschränkt, direkte Antworten zu geben oder oberflächliche Denkprozesse mit begrenzter Tiefe zu durchlaufen, was oft zu ungenauen Belohnungssignalen führt. Wir vertreten die Ansicht, dass die Einbindung expliziter langer Gedankenketten (Chains of Thought, CoT) in den Belohnungsprozess deren Zuverlässigkeit und Robustheit erheblich stärken kann. Darüber hinaus glauben wir, dass RMs, sobald sie CoT-Denken verinnerlicht haben, auch die Genauigkeit ihrer direkten Antworten durch implizite Denkfähigkeiten verbessern können. Zu diesem Zweck schlägt dieses Papier UnifiedReward-Think vor, das erste einheitliche multimodale CoT-basierte Belohnungsmodell, das in der Lage ist, mehrdimensionale, schrittweise lange Denkketten sowohl für Aufgaben der visuellen Verständnis- als auch der Generierungsbelohnung durchzuführen. Konkret verwenden wir einen explorationsgetriebenen Ansatz zur Verstärkungsfeinabstimmung, um die latenten komplexen Denkfähigkeiten des Modells zu fördern und zu aktivieren: (1) Zunächst nutzen wir eine kleine Menge von Präferenzdaten zur Bildgenerierung, um den Denkprozess von GPT-4o zu destillieren, der dann für den Kaltstart des Modells verwendet wird, um das Format und die Struktur von CoT-Denken zu erlernen. (2) Anschließend nutzen wir das Vorwissen und die Generalisierungsfähigkeiten des Modells, um groß angelegte einheitliche multimodale Präferenzdaten zu erstellen, die den Denkprozess des Modells über verschiedene Vision-Aufgaben hinweg aktivieren. In dieser Phase werden korrekte Denkausgaben für die Ablehnungsstichprobe beibehalten, um das Modell zu verfeinern (3), während falsch vorhergesagte Proben schließlich für die verstärkungsbasierte Feinabstimmung mittels Group Relative Policy Optimization (GRPO) verwendet werden, um das Modell zu befähigen, diverse Denkpfade zu erkunden und korrekte sowie robuste Lösungen zu optimieren. Umfangreiche Experimente über verschiedene Vision-Belohnungsaufgaben hinweg demonstrieren die Überlegenheit unseres Modells.
English
Recent advances in multimodal Reward Models (RMs) have shown significant
promise in delivering reward signals to align vision models with human
preferences. However, current RMs are generally restricted to providing direct
responses or engaging in shallow reasoning processes with limited depth, often
leading to inaccurate reward signals. We posit that incorporating explicit long
chains of thought (CoT) into the reward reasoning process can significantly
strengthen their reliability and robustness. Furthermore, we believe that once
RMs internalize CoT reasoning, their direct response accuracy can also be
improved through implicit reasoning capabilities. To this end, this paper
proposes UnifiedReward-Think, the first unified multimodal CoT-based reward
model, capable of multi-dimensional, step-by-step long-chain reasoning for both
visual understanding and generation reward tasks. Specifically, we adopt an
exploration-driven reinforcement fine-tuning approach to elicit and incentivize
the model's latent complex reasoning ability: (1) We first use a small amount
of image generation preference data to distill the reasoning process of GPT-4o,
which is then used for the model's cold start to learn the format and structure
of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge
and generalization capabilities, we prepare large-scale unified multimodal
preference data to elicit the model's reasoning process across various vision
tasks. During this phase, correct reasoning outputs are retained for rejection
sampling to refine the model (3) while incorrect predicted samples are finally
used for Group Relative Policy Optimization (GRPO) based reinforcement
fine-tuning, enabling the model to explore diverse reasoning paths and optimize
for correct and robust solutions. Extensive experiments across various vision
reward tasks demonstrate the superiority of our model.Summary
AI-Generated Summary