T2V-Turbo: Überwindung des Qualitätsengpasses des Video-Konsistenzmodells mit gemischtem Belohnungsfeedback.
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
May 29, 2024
Autoren: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI
Zusammenfassung
Text-zu-Video-Modelle auf der Basis von Diffusion haben signifikante Erfolge erzielt, werden jedoch weiterhin durch die langsame Abtastgeschwindigkeit ihrer iterativen Abtastprozesse behindert. Zur Bewältigung dieser Herausforderung wurden Konsistenzmodelle vorgeschlagen, um schnelle Inferenz zu ermöglichen, jedoch auf Kosten der Probenqualität. In dieser Arbeit zielen wir darauf ab, den Qualitätsengpass eines Video-Konsistenzmodells zu überwinden, um sowohl schnelle als auch qualitativ hochwertige Videoerzeugung zu erreichen. Wir stellen T2V-Turbo vor, das Rückmeldungen aus einer Mischung verschiedeneriierbarer Belohnungsmodelle in den Konsistenz-Destillationsprozess eines vorab trainierten T2V-Modells integriert. Bemerkenswert ist, dass wir Belohnungen direkt optimieren, die mit Einzelschritt-Erzeugungen verbunden sind, die sich natürlich aus der Berechnung des CD-Verlusts ergeben, und somit effektiv die Speicherbeschränkungen umgehen, die durch das Rückpropagieren von Gradienten durch einen iterativen Abtastprozess auferlegt werden. Bemerkenswerterweise erzielen die 4-Schritt-Erzeugungen unseres T2V-Turbo den höchsten Gesamtscore auf VBench, sogar höher als Gen-2 und Pika. Wir führen außerdem menschliche Bewertungen durch, um die Ergebnisse zu bestätigen, und validieren, dass die 4-Schritt-Erzeugungen unseres T2V-Turbo gegenüber den 50-Schritt-DDIM-Proben ihrer Lehrmodelle bevorzugt werden, was eine Beschleunigung um mehr als das Zehnfache darstellt und die Qualität der Videoerzeugung verbessert.
English
Diffusion-based text-to-video (T2V) models have achieved significant success
but continue to be hampered by the slow sampling speed of their iterative
sampling processes. To address the challenge, consistency models have been
proposed to facilitate fast inference, albeit at the cost of sample quality. In
this work, we aim to break the quality bottleneck of a video consistency model
(VCM) to achieve both fast and high-quality video generation. We
introduce T2V-Turbo, which integrates feedback from a mixture of differentiable
reward models into the consistency distillation (CD) process of a pre-trained
T2V model. Notably, we directly optimize rewards associated with single-step
generations that arise naturally from computing the CD loss, effectively
bypassing the memory constraints imposed by backpropagating gradients through
an iterative sampling process. Remarkably, the 4-step generations from our
T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and
Pika. We further conduct human evaluations to corroborate the results,
validating that the 4-step generations from our T2V-Turbo are preferred over
the 50-step DDIM samples from their teacher models, representing more than a
tenfold acceleration while improving video generation quality.Summary
AI-Generated Summary