T2V-Turbo: Superando el cuello de botella de calidad en modelos de consistencia de video con retroalimentación de recompensas mixtas
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
May 29, 2024
Autores: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI
Resumen
Los modelos de texto a vídeo (T2V) basados en difusión han logrado un éxito significativo, pero siguen enfrentándose a la limitación de la velocidad lenta de muestreo debido a sus procesos iterativos. Para abordar este desafío, se han propuesto modelos de consistencia que permiten una inferencia rápida, aunque a costa de la calidad de las muestras. En este trabajo, nuestro objetivo es superar el cuello de botella de calidad en un modelo de consistencia de vídeo (VCM) para lograr una generación de vídeo tanto rápida como de alta calidad. Presentamos T2V-Turbo, que integra retroalimentación de una mezcla de modelos de recompensa diferenciables en el proceso de destilación de consistencia (CD) de un modelo T2V preentrenado. Destacamos que optimizamos directamente las recompensas asociadas con generaciones de un solo paso que surgen naturalmente al calcular la pérdida de CD, evitando eficazmente las limitaciones de memoria impuestas por la retropropagación de gradientes a través de un proceso de muestreo iterativo. Notablemente, las generaciones de 4 pasos de nuestro T2V-Turbo alcanzan la puntuación total más alta en VBench, superando incluso a Gen-2 y Pika. Además, realizamos evaluaciones humanas para corroborar los resultados, validando que las generaciones de 4 pasos de nuestro T2V-Turbo son preferidas sobre las muestras de 50 pasos DDIM de sus modelos maestros, lo que representa una aceleración de más de diez veces mientras se mejora la calidad de la generación de vídeo.
English
Diffusion-based text-to-video (T2V) models have achieved significant success
but continue to be hampered by the slow sampling speed of their iterative
sampling processes. To address the challenge, consistency models have been
proposed to facilitate fast inference, albeit at the cost of sample quality. In
this work, we aim to break the quality bottleneck of a video consistency model
(VCM) to achieve both fast and high-quality video generation. We
introduce T2V-Turbo, which integrates feedback from a mixture of differentiable
reward models into the consistency distillation (CD) process of a pre-trained
T2V model. Notably, we directly optimize rewards associated with single-step
generations that arise naturally from computing the CD loss, effectively
bypassing the memory constraints imposed by backpropagating gradients through
an iterative sampling process. Remarkably, the 4-step generations from our
T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and
Pika. We further conduct human evaluations to corroborate the results,
validating that the 4-step generations from our T2V-Turbo are preferred over
the 50-step DDIM samples from their teacher models, representing more than a
tenfold acceleration while improving video generation quality.Summary
AI-Generated Summary