VisionReward: Fijnmazig multidimensioneel menselijk voorkeursleren voor beeld- en videogeneratie

Samenvatting

We presenteren een algemene strategie om visuele generatiemodellen - zowel beeld- als videogeneratie - af te stemmen op menselijke voorkeur. Om te beginnen bouwen we VisionReward - een fijnmazig en multidimensionaal beloningsmodel. We ontleden menselijke voorkeuren in afbeeldingen en video's in meerdere dimensies, elk vertegenwoordigd door een reeks beoordelingsvragen, lineair gewogen en opgeteld tot een interpreteerbare en nauwkeurige score. Om de uitdagingen van videokwaliteitsbeoordeling aan te pakken, analyseren we systematisch verschillende dynamische kenmerken van video's, wat VisionReward helpt om VideoScore met 17,2% te overtreffen en de beste prestaties te behalen voor videovoorkeursvoorspelling. Op basis van VisionReward ontwikkelen we een multi-objectief voorkeursleer-algoritme dat effectief het probleem van verstorende factoren binnen voorkeursgegevens aanpakt. Onze aanpak presteert aanzienlijk beter dan bestaande methoden voor het scoren van afbeeldingen en video's, zowel op machinemetingen als menselijke evaluatie. Alle code en datasets zijn beschikbaar op https://github.com/THUDM/VisionReward.

English

We present a general strategy to aligning visual generation models -- both image and video generation -- with human preference. To start with, we build VisionReward -- a fine-grained and multi-dimensional reward model. We decompose human preferences in images and videos into multiple dimensions, each represented by a series of judgment questions, linearly weighted and summed to an interpretable and accurate score. To address the challenges of video quality assessment, we systematically analyze various dynamic features of videos, which helps VisionReward surpass VideoScore by 17.2% and achieve top performance for video preference prediction. Based on VisionReward, we develop a multi-objective preference learning algorithm that effectively addresses the issue of confounding factors within preference data. Our approach significantly outperforms existing image and video scoring methods on both machine metrics and human evaluation. All code and datasets are provided at https://github.com/THUDM/VisionReward.

VisionReward: Fijnmazig multidimensioneel menselijk voorkeursleren voor beeld- en videogeneratie

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Samenvatting

Summary

Support

Support