Einheitliches Belohnungsmodell für multimodales Verständnis und Generierung
Unified Reward Model for Multimodal Understanding and Generation
March 7, 2025
Autoren: Yibin Wang, Yuhang Zang, Hao Li, Cheng Jin, Jiaqi Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Ausrichtung menschlicher Präferenzen haben die multimodale Generierung und das Verständnis erheblich verbessert. Ein zentraler Ansatz besteht darin, Belohnungsmodelle zu trainieren, um die Präferenzoptimierung zu steuern. Allerdings sind bestehende Modelle oft aufgaben spezifisch, was ihre Anpassungsfähigkeit über verschiedene visuelle Anwendungen hinweg einschränkt. Wir argumentieren außerdem, dass das gemeinsame Lernen zur Bewertung mehrerer Aufgaben einen synergetischen Effekt fördern könnte, bei dem ein verbessertes Bildverständnis die Bewertung der Bildgenerierung steigert und eine verfeinerte Bildbewertung die Videoanalyse durch eine bessere Rahmenanalyse begünstigt. Zu diesem Zweck schlägt dieses Papier UnifiedReward vor, das erste einheitliche Belohnungsmodell für multimodales Verständnis und die Bewertung der Generierung, das sowohl paarweises Ranking als auch punktweise Bewertung ermöglicht und für die Ausrichtung der Präferenzen von Vision-Modellen eingesetzt werden kann. Konkret (1) entwickeln wir zunächst UnifiedReward auf unserem erstellten groß angelegten Datensatz menschlicher Präferenzen, der sowohl Bild- als auch Video-Generierungs-/Verständnisaufgaben umfasst. (2) Anschließend wird es genutzt, um automatisch hochwertige Präferenzpaardaten basierend auf den Vision-Modellen zu konstruieren, indem deren Ausgaben schrittweise durch paarweises Ranking und punktweises Sieben gefiltert werden. (3) Schließlich werden diese Daten für ihre Präferenzausrichtung durch Direct Preference Optimization (DPO) verwendet. Experimentelle Ergebnisse zeigen, dass das gemeinsame Lernen zur Bewertung verschiedener visueller Aufgaben zu erheblichen gegenseitigen Vorteilen führen kann, und wir wenden unsere Pipeline sowohl auf Bild- als auch auf Video-Verständnis-/Generierungsaufgaben an, wodurch die Leistung in jedem Bereich signifikant verbessert wird.
English
Recent advances in human preference alignment have significantly enhanced
multimodal generation and understanding. A key approach is training reward
models to guide preference optimization. However, existing models are often
task-specific, limiting their adaptability across diverse visual applications.
We also argue that jointly learning to assess multiple tasks may foster a
synergistic effect, where improved image understanding enhances image
generation assessment, and refined image evaluation benefits video assessment
through better frame analysis. To this end, this paper proposes UnifiedReward,
the first unified reward model for multimodal understanding and generation
assessment, enabling both pairwise ranking and pointwise scoring, which can be
employed for vision model preference alignment. Specifically, (1) we first
develop UnifiedReward on our constructed large-scale human preference dataset,
including both image and video generation/understanding tasks. (2) Then, it is
utilized to automatically construct high-quality preference pair data based on
the vision models, fine-gradually filtering their outputs through pair ranking
and point sifting. (3) Finally, these data are used for their preference
alignment through Direct Preference Optimization (DPO). Experimental results
demonstrate that joint learning to assess diverse visual tasks can lead to
substantial mutual benefits and we apply our pipeline to both image and video
understanding/generation tasks, significantly improving the performance in each
domain.Summary
AI-Generated Summary