Migliorare la Generazione di Video con il Feedback Umano

Abstract

La generazione di video ha ottenuto significativi progressi attraverso le tecniche di flusso rettificato, ma problemi come il movimento non fluido e lo scollamento tra video e indicazioni persistono. In questo lavoro, sviluppiamo un processo sistematico che sfrutta il feedback umano per mitigare questi problemi e perfezionare il modello di generazione video. In particolare, iniziamo costruendo un ampio dataset di preferenze umane focalizzato sui moderni modelli di generazione video, incorporando annotazioni a coppie su diverse dimensioni. Successivamente introduciamo VideoReward, un modello di ricompensa video multidimensionale, e esaminiamo come le annotazioni e varie scelte progettuali influenzino la sua efficacia ricompensativa. Da una prospettiva unificata di apprendimento per rinforzo mirata a massimizzare la ricompensa con regolarizzazione KL, introduciamo tre algoritmi di allineamento per modelli basati sul flusso estendendoli da quelli dei modelli di diffusione. Questi includono due strategie durante l'addestramento: ottimizzazione diretta delle preferenze per il flusso (Flow-DPO) e regressione pesata per ricompensa per il flusso (Flow-RWR), e una tecnica durante l'inferenza, Flow-NRG, che applica direttamente la guida della ricompensa a video rumorosi. I risultati sperimentali indicano che VideoReward supera significativamente i modelli di ricompensa esistenti, e Flow-DPO dimostra prestazioni superiori rispetto sia a Flow-RWR che ai metodi standard di fine-tuning supervisionato. Inoltre, Flow-NRG consente agli utenti di assegnare pesi personalizzati a più obiettivi durante l'inferenza, soddisfacendo le esigenze personali di qualità video. Pagina del progetto: https://gongyeliu.github.io/videoalign.

English

Video generation has achieved significant advances through rectified flow techniques, but issues like unsmooth motion and misalignment between videos and prompts persist. In this work, we develop a systematic pipeline that harnesses human feedback to mitigate these problems and refine the video generation model. Specifically, we begin by constructing a large-scale human preference dataset focused on modern video generation models, incorporating pairwise annotations across multi-dimensions. We then introduce VideoReward, a multi-dimensional video reward model, and examine how annotations and various design choices impact its rewarding efficacy. From a unified reinforcement learning perspective aimed at maximizing reward with KL regularization, we introduce three alignment algorithms for flow-based models by extending those from diffusion models. These include two training-time strategies: direct preference optimization for flow (Flow-DPO) and reward weighted regression for flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies reward guidance directly to noisy videos. Experimental results indicate that VideoReward significantly outperforms existing reward models, and Flow-DPO demonstrates superior performance compared to both Flow-RWR and standard supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom weights to multiple objectives during inference, meeting personalized video quality needs. Project page: https://gongyeliu.github.io/videoalign.

Migliorare la Generazione di Video con il Feedback Umano

Improving Video Generation with Human Feedback

Abstract

Support