ChatPaper.aiChatPaper

T2V-Turbo: Superare il collo di bottiglia della qualità nei modelli di coerenza video con feedback a ricompensa mista

T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback

May 29, 2024
Autori: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang
cs.AI

Abstract

I modelli di text-to-video (T2V) basati su diffusione hanno ottenuto un successo significativo, ma continuano a essere limitati dalla lentezza del processo di campionamento iterativo. Per affrontare questa sfida, sono stati proposti modelli di consistenza per facilitare un'inferenza veloce, sebbene a scapito della qualità del campionamento. In questo lavoro, miriamo a superare il collo di bottiglia qualitativo di un modello di consistenza video (VCM) per ottenere una generazione video sia veloce che di alta qualità. Introduciamo T2V-Turbo, che integra feedback provenienti da una miscela di modelli di ricompensa differenziabili nel processo di distillazione della consistenza (CD) di un modello T2V pre-addestrato. In particolare, ottimizziamo direttamente le ricompense associate a generazioni a singolo passo che emergono naturalmente dal calcolo della perdita CD, aggirando efficacemente i vincoli di memoria imposti dalla retropropagazione dei gradienti attraverso un processo di campionamento iterativo. Notevolmente, le generazioni a 4 passi del nostro T2V-Turbo raggiungono il punteggio totale più alto su VBench, superando persino Gen-2 e Pika. Abbiamo inoltre condotto valutazioni umane per corroborare i risultati, confermando che le generazioni a 4 passi del nostro T2V-Turbo sono preferite rispetto ai campioni a 50 passi DDIM dei loro modelli insegnanti, rappresentando un'accelerazione di oltre dieci volte mentre migliorano la qualità della generazione video.
English
Diffusion-based text-to-video (T2V) models have achieved significant success but continue to be hampered by the slow sampling speed of their iterative sampling processes. To address the challenge, consistency models have been proposed to facilitate fast inference, albeit at the cost of sample quality. In this work, we aim to break the quality bottleneck of a video consistency model (VCM) to achieve both fast and high-quality video generation. We introduce T2V-Turbo, which integrates feedback from a mixture of differentiable reward models into the consistency distillation (CD) process of a pre-trained T2V model. Notably, we directly optimize rewards associated with single-step generations that arise naturally from computing the CD loss, effectively bypassing the memory constraints imposed by backpropagating gradients through an iterative sampling process. Remarkably, the 4-step generations from our T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and Pika. We further conduct human evaluations to corroborate the results, validating that the 4-step generations from our T2V-Turbo are preferred over the 50-step DDIM samples from their teacher models, representing more than a tenfold acceleration while improving video generation quality.
PDF211February 8, 2026