T2V-Turbo-v2: Potenziare il Modello di Generazione Video Post-Training attraverso Progettazione di Guida dei Dati, Ricompensa e Condizioni
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design
October 8, 2024
Autori: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI
Abstract
In questo articolo, ci concentriamo sull'ottimizzazione di un modello testo-video (T2V) basato sulla diffusione durante la fase di post-training mediante l'estrazione di un modello di coerenza altamente capace da un modello T2V preaddestrato. Il nostro metodo proposto, T2V-Turbo-v2, introduce un significativo progresso integrando vari segnali di supervisione, inclusi dati di addestramento di alta qualità, feedback del modello di ricompensa e guida condizionale, nel processo di distillazione della coerenza. Attraverso approfonditi studi di ablazione, mettiamo in evidenza l'importanza cruciale dell'adattamento dei dataset agli obiettivi di apprendimento specifici e l'efficacia dell'apprendimento da diversi modelli di ricompensa per migliorare sia la qualità visiva che l'allineamento testo-video. Inoltre, evidenziamo l'ampio spazio di progettazione delle strategie di guida condizionale, che si concentra sulla progettazione di una funzione energetica efficace per potenziare il risolutore ODE dell'insegnante. Dimostriamo il potenziale di questo approccio estraendo la guida del movimento dai dataset di addestramento e incorporandola nel risolutore ODE, mostrando la sua efficacia nel migliorare la qualità del movimento dei video generati con le metriche migliorate relative al movimento di VBench e T2V-CompBench. Empiricamente, il nostro T2V-Turbo-v2 stabilisce un nuovo risultato di stato dell'arte su VBench, con un punteggio totale di 85,13, superando sistemi proprietari come Gen-3 e Kling.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V)
model during the post-training phase by distilling a highly capable consistency
model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2,
introduces a significant advancement by integrating various supervision
signals, including high-quality training data, reward model feedback, and
conditional guidance, into the consistency distillation process. Through
comprehensive ablation studies, we highlight the crucial importance of
tailoring datasets to specific learning objectives and the effectiveness of
learning from diverse reward models for enhancing both the visual quality and
text-video alignment. Additionally, we highlight the vast design space of
conditional guidance strategies, which centers on designing an effective energy
function to augment the teacher ODE solver. We demonstrate the potential of
this approach by extracting motion guidance from the training datasets and
incorporating it into the ODE solver, showcasing its effectiveness in improving
the motion quality of the generated videos with the improved motion-related
metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2
establishes a new state-of-the-art result on VBench, with a Total score of
85.13, surpassing proprietary systems such as Gen-3 and Kling.