ChatPaper.aiChatPaper

Einheitliches multimodales Chain-of-Thought-Belohnungsmodell durch Reinforcement-Fine-Tuning

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6, 2025
Autoren: Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
cs.AI

Zusammenfassung

Jüngste Fortschritte bei multimodalen Belohnungsmodellen (Reward Models, RMs) haben großes Potenzial gezeigt, Belohnungssignale zu liefern, um Vision-Modelle mit menschlichen Präferenzen in Einklang zu bringen. Allerdings sind aktuelle RMs in der Regel darauf beschränkt, direkte Antworten zu geben oder oberflächliche Denkprozesse mit begrenzter Tiefe zu durchlaufen, was oft zu ungenauen Belohnungssignalen führt. Wir vertreten die Ansicht, dass die Einbindung expliziter langer Gedankenketten (Chains of Thought, CoT) in den Belohnungsprozess deren Zuverlässigkeit und Robustheit erheblich stärken kann. Darüber hinaus glauben wir, dass RMs, sobald sie CoT-Denken verinnerlicht haben, auch die Genauigkeit ihrer direkten Antworten durch implizite Denkfähigkeiten verbessern können. Zu diesem Zweck schlägt dieses Papier UnifiedReward-Think vor, das erste einheitliche multimodale CoT-basierte Belohnungsmodell, das in der Lage ist, mehrdimensionale, schrittweise lange Denkketten sowohl für Aufgaben der visuellen Verständnis- als auch der Generierungsbelohnung durchzuführen. Konkret verwenden wir einen explorationsgetriebenen Ansatz zur Verstärkungsfeinabstimmung, um die latenten komplexen Denkfähigkeiten des Modells zu fördern und zu aktivieren: (1) Zunächst nutzen wir eine kleine Menge von Präferenzdaten zur Bildgenerierung, um den Denkprozess von GPT-4o zu destillieren, der dann für den Kaltstart des Modells verwendet wird, um das Format und die Struktur von CoT-Denken zu erlernen. (2) Anschließend nutzen wir das Vorwissen und die Generalisierungsfähigkeiten des Modells, um groß angelegte einheitliche multimodale Präferenzdaten zu erstellen, die den Denkprozess des Modells über verschiedene Vision-Aufgaben hinweg aktivieren. In dieser Phase werden korrekte Denkausgaben für die Ablehnungsstichprobe beibehalten, um das Modell zu verfeinern (3), während falsch vorhergesagte Proben schließlich für die verstärkungsbasierte Feinabstimmung mittels Group Relative Policy Optimization (GRPO) verwendet werden, um das Modell zu befähigen, diverse Denkpfade zu erkunden und korrekte sowie robuste Lösungen zu optimieren. Umfangreiche Experimente über verschiedene Vision-Belohnungsaufgaben hinweg demonstrieren die Überlegenheit unseres Modells.
English
Recent advances in multimodal Reward Models (RMs) have shown significant promise in delivering reward signals to align vision models with human preferences. However, current RMs are generally restricted to providing direct responses or engaging in shallow reasoning processes with limited depth, often leading to inaccurate reward signals. We posit that incorporating explicit long chains of thought (CoT) into the reward reasoning process can significantly strengthen their reliability and robustness. Furthermore, we believe that once RMs internalize CoT reasoning, their direct response accuracy can also be improved through implicit reasoning capabilities. To this end, this paper proposes UnifiedReward-Think, the first unified multimodal CoT-based reward model, capable of multi-dimensional, step-by-step long-chain reasoning for both visual understanding and generation reward tasks. Specifically, we adopt an exploration-driven reinforcement fine-tuning approach to elicit and incentivize the model's latent complex reasoning ability: (1) We first use a small amount of image generation preference data to distill the reasoning process of GPT-4o, which is then used for the model's cold start to learn the format and structure of CoT reasoning. (2) Subsequently, by leveraging the model's prior knowledge and generalization capabilities, we prepare large-scale unified multimodal preference data to elicit the model's reasoning process across various vision tasks. During this phase, correct reasoning outputs are retained for rejection sampling to refine the model (3) while incorrect predicted samples are finally used for Group Relative Policy Optimization (GRPO) based reinforcement fine-tuning, enabling the model to explore diverse reasoning paths and optimize for correct and robust solutions. Extensive experiments across various vision reward tasks demonstrate the superiority of our model.

Summary

AI-Generated Summary

PDF772May 7, 2025