Улучшение генерации видео с помощью обратной связи от человека

Improving Video Generation with Human Feedback

January 23, 2025
Авторы: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang
cs.AI

Аннотация

Генерация видео достигла значительных успехов благодаря техникам исправления потока, однако проблемы, такие как неровное движение и несоответствие между видео и подсказками, остаются актуальными. В данной работе мы разрабатываем систематический конвейер, который использует обратную связь от людей для устранения этих проблем и улучшения модели генерации видео. В частности, мы начинаем с создания крупномасштабного набора данных предпочтений людей, сосредоточенного на современных моделях генерации видео, включающего попарные аннотации по многим измерениям. Затем мы представляем VideoReward, многомерную модель вознаграждения для видео, и исследуем, как аннотации и различные дизайнерские решения влияют на ее эффективность в вознаграждении. Из объединенной перспективы обучения с подкреплением с целью максимизации вознаграждения с регуляризацией KL мы представляем три алгоритма выравнивания для моделей на основе потока, расширяя их из моделей диффузии. Сюда входят две стратегии обучения: прямая оптимизация предпочтений для потока (Flow-DPO) и регрессия с взвешенным вознаграждением для потока (Flow-RWR), а также техника времени вывода, Flow-NRG, которая применяет направление вознаграждения непосредственно к шумным видео. Экспериментальные результаты показывают, что VideoReward значительно превосходит существующие модели вознаграждения, а Flow-DPO демонстрирует превосходные результаты по сравнению как с Flow-RWR, так и со стандартными методами обучения с учителем. Кроме того, Flow-NRG позволяет пользователям назначать пользовательские веса для нескольких целей во время вывода, удовлетворяя индивидуальные потребности в качестве видео. Страница проекта: https://gongyeliu.github.io/videoalign.
English
Video generation has achieved significant advances through rectified flow techniques, but issues like unsmooth motion and misalignment between videos and prompts persist. In this work, we develop a systematic pipeline that harnesses human feedback to mitigate these problems and refine the video generation model. Specifically, we begin by constructing a large-scale human preference dataset focused on modern video generation models, incorporating pairwise annotations across multi-dimensions. We then introduce VideoReward, a multi-dimensional video reward model, and examine how annotations and various design choices impact its rewarding efficacy. From a unified reinforcement learning perspective aimed at maximizing reward with KL regularization, we introduce three alignment algorithms for flow-based models by extending those from diffusion models. These include two training-time strategies: direct preference optimization for flow (Flow-DPO) and reward weighted regression for flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies reward guidance directly to noisy videos. Experimental results indicate that VideoReward significantly outperforms existing reward models, and Flow-DPO demonstrates superior performance compared to both Flow-RWR and standard supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom weights to multiple objectives during inference, meeting personalized video quality needs. Project page: https://gongyeliu.github.io/videoalign.

Summary

AI-Generated Summary

PDF504January 24, 2025