VisionReward: Обучение тонких многомерных человеческих предпочтений для генерации изображений и видео
VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation
December 30, 2024
Авторы: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shurun Li, Jiayan Teng, Zhuoyi Yang, Wendi Zheng, Xiao Liu, Ming Ding, Xiaohan Zhang, Xiaotao Gu, Shiyu Huang, Minlie Huang, Jie Tang, Yuxiao Dong
cs.AI
Аннотация
Мы представляем общую стратегию выравнивания моделей визуальной генерации - как генерации изображений, так и видео - с предпочтениями человека. Для начала мы создаем VisionReward - модель награды с тонкой детализацией и многомерным подходом. Мы декомпозируем предпочтения людей в отношении изображений и видео на несколько измерений, каждое из которых представлено серией вопросов для оценки, линейно взвешенных и суммируемых для получения интерпретируемого и точного рейтинга. Для решения проблем оценки качества видео мы систематически анализируем различные динамические характеристики видео, что помогает VisionReward превзойти VideoScore на 17,2% и достичь лучшей производительности в предсказании предпочтений по видео. На основе VisionReward мы разрабатываем алгоритм обучения с множеством целей, который эффективно решает проблему факторов, влияющих на данные о предпочтениях. Наш подход значительно превосходит существующие методы оценки изображений и видео как по метрикам машинного обучения, так и по оценке людей. Весь код и наборы данных предоставлены на https://github.com/THUDM/VisionReward.
English
We present a general strategy to aligning visual generation models -- both
image and video generation -- with human preference. To start with, we build
VisionReward -- a fine-grained and multi-dimensional reward model. We decompose
human preferences in images and videos into multiple dimensions, each
represented by a series of judgment questions, linearly weighted and summed to
an interpretable and accurate score. To address the challenges of video quality
assessment, we systematically analyze various dynamic features of videos, which
helps VisionReward surpass VideoScore by 17.2% and achieve top performance for
video preference prediction. Based on VisionReward, we develop a
multi-objective preference learning algorithm that effectively addresses the
issue of confounding factors within preference data. Our approach significantly
outperforms existing image and video scoring methods on both machine metrics
and human evaluation. All code and datasets are provided at
https://github.com/THUDM/VisionReward.Summary
AI-Generated Summary