T2V-Turbo: Преодоление качественного узкого места модели согласованности видео с помощью смешанной обратной связи поощрения
T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
May 29, 2024
Авторы: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI
Аннотация
Модели текст-видео (T2V) на основе диффузии достигли значительного успеха, однако продолжают сталкиваться с медленной скоростью выборки из-за итеративных процессов выборки. Для решения этой проблемы были предложены модели согласованности для облегчения быстрого вывода, хотя за счет качества выборки. В данной работе мы стремимся преодолеть узкое место качества модели согласованности видео (VCM) для достижения быстрой и высококачественной генерации видео. Мы представляем T2V-Turbo, который интегрирует обратную связь от смеси дифференцируемых моделей вознаграждения в процесс консистентности дистилляции (CD) предварительно обученной модели T2V. Заметим, что мы напрямую оптимизируем вознаграждения, связанные с генерациями с одним шагом, которые естественным образом возникают из вычисления потерь CD, эффективно обходя ограничения памяти, накладываемые обратным распространением градиентов через итеративный процесс выборки. Замечательно, что генерации на 4 шага из нашего T2V-Turbo достигают самого высокого общего балла на VBench, превосходя даже Gen-2 и Pika. Мы также проводим оценку от людей для подтверждения результатов, подтверждая, что генерации на 4 шага из нашего T2V-Turbo предпочтительнее, чем выборки DDIM на 50 шагов от их учителей моделей, что представляет более чем в десять раз ускорение при улучшении качества генерации видео.
English
Diffusion-based text-to-video (T2V) models have achieved significant success
but continue to be hampered by the slow sampling speed of their iterative
sampling processes. To address the challenge, consistency models have been
proposed to facilitate fast inference, albeit at the cost of sample quality. In
this work, we aim to break the quality bottleneck of a video consistency model
(VCM) to achieve both fast and high-quality video generation. We
introduce T2V-Turbo, which integrates feedback from a mixture of differentiable
reward models into the consistency distillation (CD) process of a pre-trained
T2V model. Notably, we directly optimize rewards associated with single-step
generations that arise naturally from computing the CD loss, effectively
bypassing the memory constraints imposed by backpropagating gradients through
an iterative sampling process. Remarkably, the 4-step generations from our
T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and
Pika. We further conduct human evaluations to corroborate the results,
validating that the 4-step generations from our T2V-Turbo are preferred over
the 50-step DDIM samples from their teacher models, representing more than a
tenfold acceleration while improving video generation quality.Summary
AI-Generated Summary