Mejorando la Generación de Video con Retroalimentación Humana
Improving Video Generation with Human Feedback
January 23, 2025
Autores: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
Resumen
La generación de video ha logrado avances significativos a través de técnicas de flujo rectificado, pero problemas como movimientos no suaves y desalineación entre videos e indicaciones persisten. En este trabajo, desarrollamos un proceso sistemático que aprovecha la retroalimentación humana para mitigar estos problemas y refinar el modelo de generación de video. Específicamente, comenzamos construyendo un conjunto de datos de preferencias humanas a gran escala centrado en modelos modernos de generación de video, incorporando anotaciones por pares en múltiples dimensiones. Luego introducimos VideoReward, un modelo de recompensa de video multidimensional, y examinamos cómo las anotaciones y diversas elecciones de diseño impactan en su eficacia recompensante. Desde una perspectiva unificada de aprendizaje por refuerzo con el objetivo de maximizar la recompensa con regularización KL, presentamos tres algoritmos de alineación para modelos basados en flujo mediante la extensión de los utilizados en modelos de difusión. Estos incluyen dos estrategias en tiempo de entrenamiento: optimización directa de preferencias para flujo (Flow-DPO) y regresión ponderada por recompensa para flujo (Flow-RWR), y una técnica en tiempo de inferencia, Flow-NRG, que aplica guía de recompensa directamente a videos ruidosos. Los resultados experimentales indican que VideoReward supera significativamente a los modelos de recompensa existentes, y Flow-DPO muestra un rendimiento superior en comparación con Flow-RWR y métodos estándar de ajuste fino supervisado. Además, Flow-NRG permite a los usuarios asignar pesos personalizados a múltiples objetivos durante la inferencia, satisfaciendo las necesidades de calidad de video personalizadas. Página del proyecto: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary