Amélioration de la génération de vidéos avec des retours humains
Improving Video Generation with Human Feedback
January 23, 2025
Auteurs: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
Résumé
La génération de vidéos a connu des avancées significatives grâce aux techniques de flux rectifié, mais des problèmes tels que des mouvements non fluides et un désalignement entre les vidéos et les instructions persistent. Dans ce travail, nous développons un pipeline systématique qui exploite les retours humains pour atténuer ces problèmes et affiner le modèle de génération de vidéos. Plus précisément, nous commençons par construire un ensemble de données de préférences humaines à grande échelle axé sur les modèles modernes de génération de vidéos, en incorporant des annotations par paires à travers plusieurs dimensions. Nous introduisons ensuite VideoReward, un modèle de récompense vidéo multidimensionnel, et examinons comment les annotations et divers choix de conception impactent son efficacité de récompense. Dans une perspective unifiée d'apprentissage par renforcement visant à maximiser la récompense avec une régularisation KL, nous introduisons trois algorithmes d'alignement pour les modèles basés sur le flux en étendant ceux des modèles de diffusion. Ceux-ci incluent deux stratégies à l'entraînement : l'optimisation directe des préférences pour le flux (Flow-DPO) et la régression pondérée par récompense pour le flux (Flow-RWR), ainsi qu'une technique au moment de l'inférence, Flow-NRG, qui applique directement un guidage de récompense aux vidéos bruyantes. Les résultats expérimentaux indiquent que VideoReward surpasse significativement les modèles de récompense existants, et que Flow-DPO démontre des performances supérieures par rapport à Flow-RWR et aux méthodes standard de fine-tuning supervisé. De plus, Flow-NRG permet aux utilisateurs d'attribuer des poids personnalisés à plusieurs objectifs lors de l'inférence, répondant ainsi aux besoins de qualité vidéo personnalisés. Page du projet : https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary