Улучшение генерации видео с помощью обратной связи от человека
Improving Video Generation with Human Feedback
January 23, 2025
Авторы: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI
Аннотация
Генерация видео достигла значительных успехов благодаря техникам исправления потока, однако проблемы, такие как неровное движение и несоответствие между видео и подсказками, остаются актуальными. В данной работе мы разрабатываем систематический конвейер, который использует обратную связь от людей для устранения этих проблем и улучшения модели генерации видео. В частности, мы начинаем с создания крупномасштабного набора данных предпочтений людей, сосредоточенного на современных моделях генерации видео, включающего попарные аннотации по многим измерениям. Затем мы представляем VideoReward, многомерную модель вознаграждения для видео, и исследуем, как аннотации и различные дизайнерские решения влияют на ее эффективность в вознаграждении. Из объединенной перспективы обучения с подкреплением с целью максимизации вознаграждения с регуляризацией KL мы представляем три алгоритма выравнивания для моделей на основе потока, расширяя их из моделей диффузии. Сюда входят две стратегии обучения: прямая оптимизация предпочтений для потока (Flow-DPO) и регрессия с взвешенным вознаграждением для потока (Flow-RWR), а также техника времени вывода, Flow-NRG, которая применяет направление вознаграждения непосредственно к шумным видео. Экспериментальные результаты показывают, что VideoReward значительно превосходит существующие модели вознаграждения, а Flow-DPO демонстрирует превосходные результаты по сравнению как с Flow-RWR, так и со стандартными методами обучения с учителем. Кроме того, Flow-NRG позволяет пользователям назначать пользовательские веса для нескольких целей во время вывода, удовлетворяя индивидуальные потребности в качестве видео. Страница проекта: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow
techniques, but issues like unsmooth motion and misalignment between videos and
prompts persist. In this work, we develop a systematic pipeline that harnesses
human feedback to mitigate these problems and refine the video generation
model. Specifically, we begin by constructing a large-scale human preference
dataset focused on modern video generation models, incorporating pairwise
annotations across multi-dimensions. We then introduce VideoReward, a
multi-dimensional video reward model, and examine how annotations and various
design choices impact its rewarding efficacy. From a unified reinforcement
learning perspective aimed at maximizing reward with KL regularization, we
introduce three alignment algorithms for flow-based models by extending those
from diffusion models. These include two training-time strategies: direct
preference optimization for flow (Flow-DPO) and reward weighted regression for
flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies
reward guidance directly to noisy videos. Experimental results indicate that
VideoReward significantly outperforms existing reward models, and Flow-DPO
demonstrates superior performance compared to both Flow-RWR and standard
supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom
weights to multiple objectives during inference, meeting personalized video
quality needs. Project page: https://gongyeliu.github.io/videoalign.Summary
AI-Generated Summary