ChatPaper.aiChatPaper

VisionReward: Feingliedriges multidimensionales menschliches Präferenzlernen für die Generierung von Bildern und Videos

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

December 30, 2024
Autoren: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong
cs.AI

Zusammenfassung

Wir präsentieren eine allgemeine Strategie zur Ausrichtung von visuellen Generierungsmodellen - sowohl für die Bild- als auch für die Videogenerierung - an menschlichen Präferenzen. Zunächst erstellen wir VisionReward - ein fein abgestimmtes und multidimensionales Belohnungsmodell. Wir zerlegen menschliche Präferenzen in Bildern und Videos in mehrere Dimensionen, die jeweils durch eine Reihe von Beurteilungsfragen repräsentiert werden, linear gewichtet und zu einem interpretierbaren und genauen Ergebnis summiert werden. Um den Herausforderungen der Bewertung der Videoqualität zu begegnen, analysieren wir systematisch verschiedene dynamische Merkmale von Videos, die VisionReward helfen, VideoScore um 17,2% zu übertreffen und die Spitzenleistung bei der Vorhersage von Videopräferenzen zu erreichen. Basierend auf VisionReward entwickeln wir einen multiobjektiven Präferenzlernalgorithmus, der das Problem der Störfaktoren in Präferenzdaten effektiv angeht. Unser Ansatz übertrifft signifikant bestehende Methoden zur Bewertung von Bildern und Videos sowohl hinsichtlich maschineller Metriken als auch menschlicher Bewertung. Der gesamte Code und die Datensätze sind unter https://github.com/THUDM/VisionReward verfügbar.
English
We present a general strategy to aligning visual generation models -- both image and video generation -- with human preference. To start with, we build VisionReward -- a fine-grained and multi-dimensional reward model. We decompose human preferences in images and videos into multiple dimensions, each represented by a series of judgment questions, linearly weighted and summed to an interpretable and accurate score. To address the challenges of video quality assessment, we systematically analyze various dynamic features of videos, which helps VisionReward surpass VideoScore by 17.2% and achieve top performance for video preference prediction. Based on VisionReward, we develop a multi-objective preference learning algorithm that effectively addresses the issue of confounding factors within preference data. Our approach significantly outperforms existing image and video scoring methods on both machine metrics and human evaluation. All code and datasets are provided at https://github.com/THUDM/VisionReward.

Summary

AI-Generated Summary

PDF192January 6, 2025