T2V-Turbo-v2: Verbesserung des Video-Generierungsmodells nach dem Training durch Daten-, Belohnungs- und bedingte Anleitungsgestaltung
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design
October 8, 2024
Autoren: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI
Zusammenfassung
In diesem Paper konzentrieren wir uns darauf, ein auf Diffusion basierendes Text-zu-Video (T2V)-Modell während der Post-Training-Phase zu verbessern, indem wir ein äußerst leistungsfähiges Konsistenzmodell aus einem vorab trainierten T2V-Modell destillieren. Unsere vorgeschlagene Methode, T2V-Turbo-v2, bringt einen signifikanten Fortschritt durch die Integration verschiedener Überwachungssignale, einschließlich hochwertiger Trainingsdaten, Rückmeldungen des Belohnungsmodells und bedingter Anleitung, in den Konsistenz-Destillationsprozess. Durch umfassende Ablationsstudien heben wir die entscheidende Bedeutung der Anpassung von Datensätzen an spezifische Lernziele und die Wirksamkeit des Lernens aus verschiedenen Belohnungsmodellen hervor, um sowohl die visuelle Qualität als auch die Text-Video-Abstimmung zu verbessern. Darüber hinaus betonen wir den umfangreichen Gestaltungsspielraum von Strategien für bedingte Anleitung, der darauf abzielt, eine effektive Energiefunktion zur Verstärkung des Lehrer-ODE-Lösers zu entwerfen. Wir zeigen das Potenzial dieses Ansatzes, indem wir Bewegungsanleitungen aus den Trainingsdatensätzen extrahieren und sie in den ODE-Löser integrieren, was sich in der Verbesserung der Bewegungsqualität der generierten Videos mit den verbesserten bewegungsbezogenen Metriken von VBench und T2V-CompBench als wirksam erweist. Empirisch gesehen erreicht unser T2V-Turbo-v2 ein neues State-of-the-Art-Ergebnis auf VBench mit einem Gesamtscore von 85,13 und übertrifft proprietäre Systeme wie Gen-3 und Kling.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V)
model during the post-training phase by distilling a highly capable consistency
model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2,
introduces a significant advancement by integrating various supervision
signals, including high-quality training data, reward model feedback, and
conditional guidance, into the consistency distillation process. Through
comprehensive ablation studies, we highlight the crucial importance of
tailoring datasets to specific learning objectives and the effectiveness of
learning from diverse reward models for enhancing both the visual quality and
text-video alignment. Additionally, we highlight the vast design space of
conditional guidance strategies, which centers on designing an effective energy
function to augment the teacher ODE solver. We demonstrate the potential of
this approach by extracting motion guidance from the training datasets and
incorporating it into the ODE solver, showcasing its effectiveness in improving
the motion quality of the generated videos with the improved motion-related
metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2
establishes a new state-of-the-art result on VBench, with a Total score of
85.13, surpassing proprietary systems such as Gen-3 and Kling.