LiFT: Nutzung von menschlichem Feedback zur Ausrichtung von Text-zu-Video-Modellen
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
December 6, 2024
Autoren: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei generativen Modellen für Text-zu-Video (T2V) beeindruckende Fähigkeiten gezeigt. Dennoch sind diese Modelle immer noch unzureichend, um synthetisierte Videos mit menschlichen Präferenzen in Einklang zu bringen (z. B. Textbeschreibungen genau widerzuspiegeln), was besonders schwierig zu lösen ist, da menschliche Präferenzen inhärent subjektiv sind und schwierig als objektive Funktionen zu formalisieren sind. Daher schlägt dieser Artikel LiFT vor, eine neuartige Feinabstimmungsmethode, die menschliches Feedback zur Ausrichtung von T2V-Modellen nutzt. Konkret konstruieren wir zunächst einen Datensatz für menschliche Bewertungsannotationen, LiFT-HRA, der ungefähr 10.000 menschliche Bewertungen umfasst, jeweils mit einer Punktzahl und der entsprechenden Begründung. Basierend darauf trainieren wir ein Belohnungsmodell LiFT-Critic, um die Belohnungsfunktion effektiv zu erlernen, die als Stellvertreter für menschliches Urteilsvermögen dient und die Ausrichtung zwischen gegebenen Videos und menschlichen Erwartungen misst. Schließlich nutzen wir die erlernte Belohnungsfunktion, um das T2V-Modell durch Maximierung der belohnungsgewichteten Wahrscheinlichkeit auszurichten. Als Fallstudie wenden wir unseren Prozess auf CogVideoX-2B an und zeigen, dass das feinabgestimmte Modell in allen 16 Metriken besser abschneidet als CogVideoX-5B, was das Potenzial von menschlichem Feedback zur Verbesserung der Ausrichtung und Qualität synthetisierter Videos hervorhebt.
English
Recent advancements in text-to-video (T2V) generative models have shown
impressive capabilities. However, these models are still inadequate in aligning
synthesized videos with human preferences (e.g., accurately reflecting text
descriptions), which is particularly difficult to address, as human preferences
are inherently subjective and challenging to formalize as objective functions.
Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging
human feedback for T2V model alignment. Specifically, we first construct a
Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k
human annotations, each including a score and its corresponding rationale.
Based on this, we train a reward model LiFT-Critic to learn reward function
effectively, which serves as a proxy for human judgment, measuring the
alignment between given videos and human expectations. Lastly, we leverage the
learned reward function to align the T2V model by maximizing the
reward-weighted likelihood. As a case study, we apply our pipeline to
CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B
across all 16 metrics, highlighting the potential of human feedback in
improving the alignment and quality of synthesized videos.Summary
AI-Generated Summary