LiFT: Использование обратной связи человека для выравнивания модели текст-видео.
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
December 6, 2024
Авторы: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li
cs.AI
Аннотация
Недавние достижения в области генеративных моделей текст-в-видео (T2V) показали впечатляющие возможности. Однако эти модели все еще недостаточны для согласования синтезированных видеороликов с человеческими предпочтениями (например, точное отражение текстовых описаний), что является особенно сложной задачей, поскольку человеческие предпочтения по своей природе субъективны и трудно формализуются как объективные функции. В данной статье предлагается метод LiFT, новый метод настройки с использованием обратной связи от людей для согласования модели T2V. Конкретно, мы сначала создаем набор данных аннотаций оценок людей, LiFT-HRA, состоящий примерно из 10 тыс. аннотаций, каждая из которых включает оценку и соответствующее обоснование. На основе этого мы обучаем модель вознаграждения LiFT-Critic для эффективного изучения функции вознаграждения, которая служит прокси для человеческого суждения, измеряя соответствие между предоставленными видеороликами и ожиданиями людей. Наконец, мы используем изученную функцию вознаграждения для согласования модели T2V путем максимизации правдоподобия с учетом вознаграждения. В качестве кейс-стади мы применяем наш конвейер к CogVideoX-2B, показывая, что настроенная модель превосходит CogVideoX-5B по всем 16 метрикам, подчеркивая потенциал обратной связи от людей в улучшении согласования и качества синтезированных видеороликов.
English
Recent advancements in text-to-video (T2V) generative models have shown
impressive capabilities. However, these models are still inadequate in aligning
synthesized videos with human preferences (e.g., accurately reflecting text
descriptions), which is particularly difficult to address, as human preferences
are inherently subjective and challenging to formalize as objective functions.
Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging
human feedback for T2V model alignment. Specifically, we first construct a
Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k
human annotations, each including a score and its corresponding rationale.
Based on this, we train a reward model LiFT-Critic to learn reward function
effectively, which serves as a proxy for human judgment, measuring the
alignment between given videos and human expectations. Lastly, we leverage the
learned reward function to align the T2V model by maximizing the
reward-weighted likelihood. As a case study, we apply our pipeline to
CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B
across all 16 metrics, highlighting the potential of human feedback in
improving the alignment and quality of synthesized videos.Summary
AI-Generated Summary