Melhorando a Geração de Vídeo com Feedback Humano
Improving Video Generation with Human Feedback
January 23, 2025
Autores: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
Resumo
A geração de vídeos alcançou avanços significativos por meio de técnicas de fluxo retificado, mas problemas como movimentos não suaves e desalinhamento entre vídeos e instruções persistem. Neste trabalho, desenvolvemos um pipeline sistemático que utiliza feedback humano para mitigar esses problemas e refinar o modelo de geração de vídeos. Especificamente, começamos construindo um grande conjunto de dados de preferência humana focado em modelos modernos de geração de vídeos, incorporando anotações em pares em várias dimensões. Em seguida, introduzimos o VideoReward, um modelo de recompensa de vídeo multidimensional, e examinamos como as anotações e várias escolhas de design impactam sua eficácia recompensadora. De uma perspectiva unificada de aprendizado por reforço com o objetivo de maximizar a recompensa com regularização KL, introduzimos três algoritmos de alinhamento para modelos baseados em fluxo, estendendo aqueles dos modelos de difusão. Estes incluem duas estratégias durante o treinamento: otimização direta de preferência para fluxo (Flow-DPO) e regressão ponderada por recompensa para fluxo (Flow-RWR), e uma técnica durante a inferência, Flow-NRG, que aplica orientação de recompensa diretamente a vídeos ruidosos. Resultados experimentais indicam que o VideoReward supera significativamente os modelos de recompensa existentes, e o Flow-DPO demonstra desempenho superior em comparação com o Flow-RWR e métodos padrão de ajuste fino supervisionado. Além disso, o Flow-NRG permite que os usuários atribuam pesos personalizados a múltiplos objetivos durante a inferência, atendendo às necessidades de qualidade de vídeo personalizadas. Página do projeto: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary