VisionReward: Aprendizado de Preferências Humanas Multidimensionais de Alta Granularidade para Geração de Imagens e Vídeos

Resumo

Apresentamos uma estratégia geral para alinhar modelos de geração visual - tanto de imagens quanto de vídeos - com a preferência humana. Para começar, construímos o VisionReward - um modelo de recompensa detalhado e multidimensional. Decomponemos as preferências humanas em imagens e vídeos em várias dimensões, cada uma representada por uma série de perguntas de julgamento, ponderadas linearmente e somadas para obter uma pontuação interpretável e precisa. Para lidar com os desafios da avaliação de qualidade de vídeo, analisamos sistematicamente várias características dinâmicas de vídeos, o que ajuda o VisionReward a superar o VideoScore em 17,2% e alcançar o melhor desempenho na previsão de preferência de vídeo. Com base no VisionReward, desenvolvemos um algoritmo de aprendizado de preferência multiobjetivo que aborda efetivamente o problema de fatores de confusão nos dados de preferência. Nossa abordagem supera significativamente os métodos existentes de pontuação de imagem e vídeo em métricas de máquina e avaliação humana. Todo o código e conjuntos de dados estão disponíveis em https://github.com/THUDM/VisionReward.

English

We present a general strategy to aligning visual generation models -- both image and video generation -- with human preference. To start with, we build VisionReward -- a fine-grained and multi-dimensional reward model. We decompose human preferences in images and videos into multiple dimensions, each represented by a series of judgment questions, linearly weighted and summed to an interpretable and accurate score. To address the challenges of video quality assessment, we systematically analyze various dynamic features of videos, which helps VisionReward surpass VideoScore by 17.2% and achieve top performance for video preference prediction. Based on VisionReward, we develop a multi-objective preference learning algorithm that effectively addresses the issue of confounding factors within preference data. Our approach significantly outperforms existing image and video scoring methods on both machine metrics and human evaluation. All code and datasets are provided at https://github.com/THUDM/VisionReward.

VisionReward: Aprendizado de Preferências Humanas Multidimensionais de Alta Granularidade para Geração de Imagens e Vídeos

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Resumo

Support