ChatPaper.aiChatPaper

VisionReward : Apprentissage des préférences humaines multi-dimensionnelles à grain fin pour la génération d'images et de vidéos

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

December 30, 2024
Auteurs: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong
cs.AI

Résumé

Nous présentons une stratégie générale pour aligner les modèles de génération visuelle - à la fois d'images et de vidéos - avec les préférences humaines. Pour commencer, nous construisons VisionReward - un modèle de récompense fin et multidimensionnel. Nous décomposons les préférences humaines envers les images et les vidéos en plusieurs dimensions, chacune représentée par une série de questions de jugement, pondérées linéairement et additionnées pour obtenir un score interprétable et précis. Pour relever les défis de l'évaluation de la qualité vidéo, nous analysons systématiquement diverses caractéristiques dynamiques des vidéos, ce qui permet à VisionReward de surpasser VideoScore de 17,2% et d'atteindre les meilleures performances pour la prédiction des préférences vidéo. Sur la base de VisionReward, nous développons un algorithme d'apprentissage de préférences multi-objectif qui traite efficacement le problème des facteurs de confusion dans les données de préférence. Notre approche surpasse significativement les méthodes existantes d'évaluation d'images et de vidéos à la fois en termes de mesures automatiques et d'évaluation humaine. Tout le code et les ensembles de données sont disponibles sur https://github.com/THUDM/VisionReward.
English
We present a general strategy to aligning visual generation models -- both image and video generation -- with human preference. To start with, we build VisionReward -- a fine-grained and multi-dimensional reward model. We decompose human preferences in images and videos into multiple dimensions, each represented by a series of judgment questions, linearly weighted and summed to an interpretable and accurate score. To address the challenges of video quality assessment, we systematically analyze various dynamic features of videos, which helps VisionReward surpass VideoScore by 17.2% and achieve top performance for video preference prediction. Based on VisionReward, we develop a multi-objective preference learning algorithm that effectively addresses the issue of confounding factors within preference data. Our approach significantly outperforms existing image and video scoring methods on both machine metrics and human evaluation. All code and datasets are provided at https://github.com/THUDM/VisionReward.
PDF192January 6, 2025