T2V-Turbo: Superando o Gargalo de Qualidade do Modelo de Consistência de Vídeo com Feedback de Recompensas Mistas
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
May 29, 2024
Autores: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI
Resumo
Modelos de texto para vídeo (T2V) baseados em difusão têm alcançado sucesso significativo, mas continuam a ser limitados pela velocidade lenta de amostragem de seus processos iterativos. Para enfrentar esse desafio, modelos de consistência foram propostos para facilitar inferência rápida, embora à custa da qualidade das amostras. Neste trabalho, buscamos superar o gargalo de qualidade de um modelo de consistência de vídeo (VCM) para alcançar geração de vídeo rápida e de alta qualidade. Apresentamos o T2V-Turbo, que integra feedback de uma mistura de modelos de recompensa diferenciáveis no processo de destilação de consistência (CD) de um modelo T2V pré-treinado. Notavelmente, otimizamos diretamente recompensas associadas a gerações de passo único que surgem naturalmente ao calcular a perda de CD, efetivamente contornando as restrições de memória impostas pela retropropagação de gradientes através de um processo de amostragem iterativo. De forma impressionante, as gerações de 4 passos do nosso T2V-Turbo alcançam a pontuação total mais alta no VBench, superando até mesmo o Gen-2 e o Pika. Realizamos ainda avaliações humanas para corroborar os resultados, validando que as gerações de 4 passos do nosso T2V-Turbo são preferidas em relação às amostras de 50 passos do DDIM de seus modelos de referência, representando uma aceleração de mais de dez vezes enquanto melhoram a qualidade da geração de vídeo.
English
Diffusion-based text-to-video (T2V) models have achieved significant success
but continue to be hampered by the slow sampling speed of their iterative
sampling processes. To address the challenge, consistency models have been
proposed to facilitate fast inference, albeit at the cost of sample quality. In
this work, we aim to break the quality bottleneck of a video consistency model
(VCM) to achieve both fast and high-quality video generation. We
introduce T2V-Turbo, which integrates feedback from a mixture of differentiable
reward models into the consistency distillation (CD) process of a pre-trained
T2V model. Notably, we directly optimize rewards associated with single-step
generations that arise naturally from computing the CD loss, effectively
bypassing the memory constraints imposed by backpropagating gradients through
an iterative sampling process. Remarkably, the 4-step generations from our
T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and
Pika. We further conduct human evaluations to corroborate the results,
validating that the 4-step generations from our T2V-Turbo are preferred over
the 50-step DDIM samples from their teacher models, representing more than a
tenfold acceleration while improving video generation quality.