ChatPaper.aiChatPaper

T2V-Turbo-v2: Potenziare il Modello di Generazione Video Post-Training attraverso Progettazione di Guida dei Dati, Ricompensa e Condizioni

T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

October 8, 2024
Autori: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI

Abstract

In questo articolo, ci concentriamo sull'ottimizzazione di un modello testo-video (T2V) basato sulla diffusione durante la fase di post-training mediante l'estrazione di un modello di coerenza altamente capace da un modello T2V preaddestrato. Il nostro metodo proposto, T2V-Turbo-v2, introduce un significativo progresso integrando vari segnali di supervisione, inclusi dati di addestramento di alta qualità, feedback del modello di ricompensa e guida condizionale, nel processo di distillazione della coerenza. Attraverso approfonditi studi di ablazione, mettiamo in evidenza l'importanza cruciale dell'adattamento dei dataset agli obiettivi di apprendimento specifici e l'efficacia dell'apprendimento da diversi modelli di ricompensa per migliorare sia la qualità visiva che l'allineamento testo-video. Inoltre, evidenziamo l'ampio spazio di progettazione delle strategie di guida condizionale, che si concentra sulla progettazione di una funzione energetica efficace per potenziare il risolutore ODE dell'insegnante. Dimostriamo il potenziale di questo approccio estraendo la guida del movimento dai dataset di addestramento e incorporandola nel risolutore ODE, mostrando la sua efficacia nel migliorare la qualità del movimento dei video generati con le metriche migliorate relative al movimento di VBench e T2V-CompBench. Empiricamente, il nostro T2V-Turbo-v2 stabilisce un nuovo risultato di stato dell'arte su VBench, con un punteggio totale di 85,13, superando sistemi proprietari come Gen-3 e Kling.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V) model during the post-training phase by distilling a highly capable consistency model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2, introduces a significant advancement by integrating various supervision signals, including high-quality training data, reward model feedback, and conditional guidance, into the consistency distillation process. Through comprehensive ablation studies, we highlight the crucial importance of tailoring datasets to specific learning objectives and the effectiveness of learning from diverse reward models for enhancing both the visual quality and text-video alignment. Additionally, we highlight the vast design space of conditional guidance strategies, which centers on designing an effective energy function to augment the teacher ODE solver. We demonstrate the potential of this approach by extracting motion guidance from the training datasets and incorporating it into the ODE solver, showcasing its effectiveness in improving the motion quality of the generated videos with the improved motion-related metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2 establishes a new state-of-the-art result on VBench, with a Total score of 85.13, surpassing proprietary systems such as Gen-3 and Kling.
PDF142November 16, 2024