ChatPaper.aiChatPaper

VisionReward: Aprendizaje de Preferencias Humanas Multidimensionales de Granularidad Fina para la Generación de Imágenes y Videos

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

December 30, 2024
Autores: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong
cs.AI

Resumen

Presentamos una estrategia general para alinear modelos de generación visual, tanto de imágenes como de videos, con la preferencia humana. Para comenzar, construimos VisionReward, un modelo de recompensa detallado y multidimensional. Descomponemos las preferencias humanas en imágenes y videos en múltiples dimensiones, cada una representada por una serie de preguntas de juicio, ponderadas linealmente y sumadas para obtener una puntuación interpretable y precisa. Para abordar los desafíos de la evaluación de calidad de video, analizamos sistemáticamente varias características dinámicas de los videos, lo que ayuda a VisionReward a superar a VideoScore en un 17.2% y lograr un rendimiento óptimo en la predicción de preferencias de video. Basándonos en VisionReward, desarrollamos un algoritmo de aprendizaje de preferencias multiobjetivo que aborda de manera efectiva el problema de los factores de confusión dentro de los datos de preferencia. Nuestro enfoque supera significativamente a los métodos existentes de puntuación de imágenes y videos tanto en métricas de máquina como en evaluación humana. Todo el código y los conjuntos de datos se proporcionan en https://github.com/THUDM/VisionReward.
English
We present a general strategy to aligning visual generation models -- both image and video generation -- with human preference. To start with, we build VisionReward -- a fine-grained and multi-dimensional reward model. We decompose human preferences in images and videos into multiple dimensions, each represented by a series of judgment questions, linearly weighted and summed to an interpretable and accurate score. To address the challenges of video quality assessment, we systematically analyze various dynamic features of videos, which helps VisionReward surpass VideoScore by 17.2% and achieve top performance for video preference prediction. Based on VisionReward, we develop a multi-objective preference learning algorithm that effectively addresses the issue of confounding factors within preference data. Our approach significantly outperforms existing image and video scoring methods on both machine metrics and human evaluation. All code and datasets are provided at https://github.com/THUDM/VisionReward.

Summary

AI-Generated Summary

PDF192January 6, 2025