LiFT: Nutzung von menschlichem Feedback zur Ausrichtung von Text-zu-Video-Modellen

Zusammenfassung

In jüngster Zeit haben Fortschritte bei generativen Modellen für Text-zu-Video (T2V) beeindruckende Fähigkeiten gezeigt. Dennoch sind diese Modelle immer noch unzureichend, um synthetisierte Videos mit menschlichen Präferenzen in Einklang zu bringen (z. B. Textbeschreibungen genau widerzuspiegeln), was besonders schwierig zu lösen ist, da menschliche Präferenzen inhärent subjektiv sind und schwierig als objektive Funktionen zu formalisieren sind. Daher schlägt dieser Artikel LiFT vor, eine neuartige Feinabstimmungsmethode, die menschliches Feedback zur Ausrichtung von T2V-Modellen nutzt. Konkret konstruieren wir zunächst einen Datensatz für menschliche Bewertungsannotationen, LiFT-HRA, der ungefähr 10.000 menschliche Bewertungen umfasst, jeweils mit einer Punktzahl und der entsprechenden Begründung. Basierend darauf trainieren wir ein Belohnungsmodell LiFT-Critic, um die Belohnungsfunktion effektiv zu erlernen, die als Stellvertreter für menschliches Urteilsvermögen dient und die Ausrichtung zwischen gegebenen Videos und menschlichen Erwartungen misst. Schließlich nutzen wir die erlernte Belohnungsfunktion, um das T2V-Modell durch Maximierung der belohnungsgewichteten Wahrscheinlichkeit auszurichten. Als Fallstudie wenden wir unseren Prozess auf CogVideoX-2B an und zeigen, dass das feinabgestimmte Modell in allen 16 Metriken besser abschneidet als CogVideoX-5B, was das Potenzial von menschlichem Feedback zur Verbesserung der Ausrichtung und Qualität synthetisierter Videos hervorhebt.

English

Recent advancements in text-to-video (T2V) generative models have shown impressive capabilities. However, these models are still inadequate in aligning synthesized videos with human preferences (e.g., accurately reflecting text descriptions), which is particularly difficult to address, as human preferences are inherently subjective and challenging to formalize as objective functions. Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging human feedback for T2V model alignment. Specifically, we first construct a Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k human annotations, each including a score and its corresponding rationale. Based on this, we train a reward model LiFT-Critic to learn reward function effectively, which serves as a proxy for human judgment, measuring the alignment between given videos and human expectations. Lastly, we leverage the learned reward function to align the T2V model by maximizing the reward-weighted likelihood. As a case study, we apply our pipeline to CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B across all 16 metrics, highlighting the potential of human feedback in improving the alignment and quality of synthesized videos.

LiFT: Nutzung von menschlichem Feedback zur Ausrichtung von Text-zu-Video-Modellen

LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

Zusammenfassung

Support