Einheitliches Belohnungsmodell für multimodales Verständnis und Generierung

papers.abstract

Jüngste Fortschritte in der Ausrichtung menschlicher Präferenzen haben die multimodale Generierung und das Verständnis erheblich verbessert. Ein zentraler Ansatz besteht darin, Belohnungsmodelle zu trainieren, um die Präferenzoptimierung zu steuern. Allerdings sind bestehende Modelle oft aufgaben spezifisch, was ihre Anpassungsfähigkeit über verschiedene visuelle Anwendungen hinweg einschränkt. Wir argumentieren außerdem, dass das gemeinsame Lernen zur Bewertung mehrerer Aufgaben einen synergetischen Effekt fördern könnte, bei dem ein verbessertes Bildverständnis die Bewertung der Bildgenerierung steigert und eine verfeinerte Bildbewertung die Videoanalyse durch eine bessere Rahmenanalyse begünstigt. Zu diesem Zweck schlägt dieses Papier UnifiedReward vor, das erste einheitliche Belohnungsmodell für multimodales Verständnis und die Bewertung der Generierung, das sowohl paarweises Ranking als auch punktweise Bewertung ermöglicht und für die Ausrichtung der Präferenzen von Vision-Modellen eingesetzt werden kann. Konkret (1) entwickeln wir zunächst UnifiedReward auf unserem erstellten groß angelegten Datensatz menschlicher Präferenzen, der sowohl Bild- als auch Video-Generierungs-/Verständnisaufgaben umfasst. (2) Anschließend wird es genutzt, um automatisch hochwertige Präferenzpaardaten basierend auf den Vision-Modellen zu konstruieren, indem deren Ausgaben schrittweise durch paarweises Ranking und punktweises Sieben gefiltert werden. (3) Schließlich werden diese Daten für ihre Präferenzausrichtung durch Direct Preference Optimization (DPO) verwendet. Experimentelle Ergebnisse zeigen, dass das gemeinsame Lernen zur Bewertung verschiedener visueller Aufgaben zu erheblichen gegenseitigen Vorteilen führen kann, und wir wenden unsere Pipeline sowohl auf Bild- als auch auf Video-Verständnis-/Generierungsaufgaben an, wodurch die Leistung in jedem Bereich signifikant verbessert wird.

English

Recent advances in human preference alignment have significantly enhanced multimodal generation and understanding. A key approach is training reward models to guide preference optimization. However, existing models are often task-specific, limiting their adaptability across diverse visual applications. We also argue that jointly learning to assess multiple tasks may foster a synergistic effect, where improved image understanding enhances image generation assessment, and refined image evaluation benefits video assessment through better frame analysis. To this end, this paper proposes UnifiedReward, the first unified reward model for multimodal understanding and generation assessment, enabling both pairwise ranking and pointwise scoring, which can be employed for vision model preference alignment. Specifically, (1) we first develop UnifiedReward on our constructed large-scale human preference dataset, including both image and video generation/understanding tasks. (2) Then, it is utilized to automatically construct high-quality preference pair data based on the vision models, fine-gradually filtering their outputs through pair ranking and point sifting. (3) Finally, these data are used for their preference alignment through Direct Preference Optimization (DPO). Experimental results demonstrate that joint learning to assess diverse visual tasks can lead to substantial mutual benefits and we apply our pipeline to both image and video understanding/generation tasks, significantly improving the performance in each domain.

Einheitliches Belohnungsmodell für multimodales Verständnis und Generierung

Unified Reward Model for Multimodal Understanding and Generation

papers.abstract

Support