T2V-Turbo : Surmonter le goulot d'étranglement de la qualité des modèles de cohérence vidéo grâce à un retour de récompense mixte
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
May 29, 2024
Auteurs: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI
Résumé
Les modèles de texte-à-vidéo (T2V) basés sur la diffusion ont connu un succès significatif, mais continuent d'être entravés par la lenteur de leur processus d'échantillonnage itératif. Pour relever ce défi, des modèles de cohérence ont été proposés pour faciliter une inférence rapide, bien qu'au détriment de la qualité des échantillons. Dans ce travail, nous visons à surmonter le goulot d'étranglement de qualité d'un modèle de cohérence vidéo (VCM) pour atteindre à la fois une génération vidéo rapide et de haute qualité. Nous présentons T2V-Turbo, qui intègre des retours d'une combinaison de modèles de récompense différentiables dans le processus de distillation de cohérence (CD) d'un modèle T2V pré-entraîné. Notamment, nous optimisons directement les récompenses associées aux générations en une seule étape qui découlent naturellement du calcul de la perte CD, contournant ainsi efficacement les contraintes de mémoire imposées par la rétropropagation des gradients à travers un processus d'échantillonnage itératif. De manière remarquable, les générations en 4 étapes de notre T2V-Turbo obtiennent le score total le plus élevé sur VBench, surpassant même Gen-2 et Pika. Nous menons en outre des évaluations humaines pour corroborer les résultats, validant que les générations en 4 étapes de notre T2V-Turbo sont préférées aux échantillons DDIM en 50 étapes de leurs modèles enseignants, représentant une accélération de plus de dix fois tout en améliorant la qualité de la génération vidéo.
English
Diffusion-based text-to-video (T2V) models have achieved significant success
but continue to be hampered by the slow sampling speed of their iterative
sampling processes. To address the challenge, consistency models have been
proposed to facilitate fast inference, albeit at the cost of sample quality. In
this work, we aim to break the quality bottleneck of a video consistency model
(VCM) to achieve both fast and high-quality video generation. We
introduce T2V-Turbo, which integrates feedback from a mixture of differentiable
reward models into the consistency distillation (CD) process of a pre-trained
T2V model. Notably, we directly optimize rewards associated with single-step
generations that arise naturally from computing the CD loss, effectively
bypassing the memory constraints imposed by backpropagating gradients through
an iterative sampling process. Remarkably, the 4-step generations from our
T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and
Pika. We further conduct human evaluations to corroborate the results,
validating that the 4-step generations from our T2V-Turbo are preferred over
the 50-step DDIM samples from their teacher models, representing more than a
tenfold acceleration while improving video generation quality.Summary
AI-Generated Summary