Улучшение генерации видео с помощью обратной связи от человека

Аннотация

Генерация видео достигла значительных успехов благодаря техникам исправления потока, однако проблемы, такие как неровное движение и несоответствие между видео и подсказками, остаются актуальными. В данной работе мы разрабатываем систематический конвейер, который использует обратную связь от людей для устранения этих проблем и улучшения модели генерации видео. В частности, мы начинаем с создания крупномасштабного набора данных предпочтений людей, сосредоточенного на современных моделях генерации видео, включающего попарные аннотации по многим измерениям. Затем мы представляем VideoReward, многомерную модель вознаграждения для видео, и исследуем, как аннотации и различные дизайнерские решения влияют на ее эффективность в вознаграждении. Из объединенной перспективы обучения с подкреплением с целью максимизации вознаграждения с регуляризацией KL мы представляем три алгоритма выравнивания для моделей на основе потока, расширяя их из моделей диффузии. Сюда входят две стратегии обучения: прямая оптимизация предпочтений для потока (Flow-DPO) и регрессия с взвешенным вознаграждением для потока (Flow-RWR), а также техника времени вывода, Flow-NRG, которая применяет направление вознаграждения непосредственно к шумным видео. Экспериментальные результаты показывают, что VideoReward значительно превосходит существующие модели вознаграждения, а Flow-DPO демонстрирует превосходные результаты по сравнению как с Flow-RWR, так и со стандартными методами обучения с учителем. Кроме того, Flow-NRG позволяет пользователям назначать пользовательские веса для нескольких целей во время вывода, удовлетворяя индивидуальные потребности в качестве видео. Страница проекта: https://gongyeliu.github.io/videoalign.

English

Video generation has achieved significant advances through rectified flow techniques, but issues like unsmooth motion and misalignment between videos and prompts persist. In this work, we develop a systematic pipeline that harnesses human feedback to mitigate these problems and refine the video generation model. Specifically, we begin by constructing a large-scale human preference dataset focused on modern video generation models, incorporating pairwise annotations across multi-dimensions. We then introduce VideoReward, a multi-dimensional video reward model, and examine how annotations and various design choices impact its rewarding efficacy. From a unified reinforcement learning perspective aimed at maximizing reward with KL regularization, we introduce three alignment algorithms for flow-based models by extending those from diffusion models. These include two training-time strategies: direct preference optimization for flow (Flow-DPO) and reward weighted regression for flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies reward guidance directly to noisy videos. Experimental results indicate that VideoReward significantly outperforms existing reward models, and Flow-DPO demonstrates superior performance compared to both Flow-RWR and standard supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom weights to multiple objectives during inference, meeting personalized video quality needs. Project page: https://gongyeliu.github.io/videoalign.

Улучшение генерации видео с помощью обратной связи от человека

Improving Video Generation with Human Feedback

Аннотация

Summary

Support