T2V-Turbo: Het doorbreken van de kwaliteitsbeperking van het videoconsistentiemodel met gemengde beloningsfeedback
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
May 29, 2024
Auteurs: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI
Samenvatting
Diffusiegebaseerde tekst-naar-video (T2V) modellen hebben aanzienlijk succes geboekt, maar worden nog steeds belemmerd door de trage bemonsteringssnelheid van hun iteratieve bemonsteringsprocessen. Om deze uitdaging aan te pakken, zijn consistentiemodellen voorgesteld om snelle inferentie mogelijk te maken, zij het ten koste van de kwaliteit van de samples. In dit werk streven we ernaar om de kwaliteitsbeperking van een video-consistentiemodel (VCM) te doorbreken, zodat zowel snelle als hoogwaardige videogeneratie mogelijk wordt. We introduceren T2V-Turbo, dat feedback van een mix van differentieerbare beloningsmodellen integreert in het consistentiedistillatie (CD) proces van een vooraf getraind T2V-model. Opmerkelijk is dat we beloningen direct optimaliseren die geassocieerd zijn met enkelstapsgeneraties die van nature ontstaan bij het berekenen van het CD-verlies, waardoor we effectief de geheugenbeperkingen omzeilen die worden opgelegd door het terugpropageren van gradiënten door een iteratief bemonsteringsproces. Opvallend is dat de 4-stapsgeneraties van onze T2V-Turbo de hoogste totale score behalen op VBench, en zelfs Gen-2 en Pika overtreffen. We voeren verder menselijke evaluaties uit om de resultaten te bevestigen, waarbij wordt gevalideerd dat de 4-stapsgeneraties van onze T2V-Turbo de voorkeur genieten boven de 50-staps DDIM-samples van hun leraarmodellen, wat een meer dan tienvoudige versnelling vertegenwoordigt terwijl de kwaliteit van de videogeneratie wordt verbeterd.
English
Diffusion-based text-to-video (T2V) models have achieved significant success
but continue to be hampered by the slow sampling speed of their iterative
sampling processes. To address the challenge, consistency models have been
proposed to facilitate fast inference, albeit at the cost of sample quality. In
this work, we aim to break the quality bottleneck of a video consistency model
(VCM) to achieve both fast and high-quality video generation. We
introduce T2V-Turbo, which integrates feedback from a mixture of differentiable
reward models into the consistency distillation (CD) process of a pre-trained
T2V model. Notably, we directly optimize rewards associated with single-step
generations that arise naturally from computing the CD loss, effectively
bypassing the memory constraints imposed by backpropagating gradients through
an iterative sampling process. Remarkably, the 4-step generations from our
T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and
Pika. We further conduct human evaluations to corroborate the results,
validating that the 4-step generations from our T2V-Turbo are preferred over
the 50-step DDIM samples from their teacher models, representing more than a
tenfold acceleration while improving video generation quality.