Migliorare la Generazione di Video con il Feedback Umano
Improving Video Generation with Human Feedback
January 23, 2025
Autori: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
Abstract
La generazione di video ha ottenuto significativi progressi attraverso le tecniche di flusso rettificato, ma problemi come il movimento non fluido e lo scollamento tra video e indicazioni persistono. In questo lavoro, sviluppiamo un processo sistematico che sfrutta il feedback umano per mitigare questi problemi e perfezionare il modello di generazione video. In particolare, iniziamo costruendo un ampio dataset di preferenze umane focalizzato sui moderni modelli di generazione video, incorporando annotazioni a coppie su diverse dimensioni. Successivamente introduciamo VideoReward, un modello di ricompensa video multidimensionale, e esaminiamo come le annotazioni e varie scelte progettuali influenzino la sua efficacia ricompensativa. Da una prospettiva unificata di apprendimento per rinforzo mirata a massimizzare la ricompensa con regolarizzazione KL, introduciamo tre algoritmi di allineamento per modelli basati sul flusso estendendoli da quelli dei modelli di diffusione. Questi includono due strategie durante l'addestramento: ottimizzazione diretta delle preferenze per il flusso (Flow-DPO) e regressione pesata per ricompensa per il flusso (Flow-RWR), e una tecnica durante l'inferenza, Flow-NRG, che applica direttamente la guida della ricompensa a video rumorosi. I risultati sperimentali indicano che VideoReward supera significativamente i modelli di ricompensa esistenti, e Flow-DPO dimostra prestazioni superiori rispetto sia a Flow-RWR che ai metodi standard di fine-tuning supervisionato. Inoltre, Flow-NRG consente agli utenti di assegnare pesi personalizzati a più obiettivi durante l'inferenza, soddisfacendo le esigenze personali di qualità video. Pagina del progetto: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary