T2V-Turbo-v2 : Amélioration du modèle de génération vidéo après l'entraînement grâce à la conception de données, de récompenses et de guidage conditionnel
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design
October 8, 2024
Auteurs: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI
Résumé
Dans ce document, nous nous concentrons sur l'amélioration d'un modèle texte-vidéo (T2V) basé sur la diffusion lors de la phase de post-entraînement en distillant un modèle de cohérence hautement performant à partir d'un modèle T2V pré-entraîné. Notre méthode proposée, T2V-Turbo-v2, introduit une avancée significative en intégrant divers signaux de supervision, y compris des données d'entraînement de haute qualité, des retours de modèle de récompense et des guidances conditionnelles, dans le processus de distillation de la cohérence. À travers des études d'ablation complètes, nous mettons en évidence l'importance cruciale de l'adaptation des ensembles de données à des objectifs d'apprentissage spécifiques et l'efficacité de l'apprentissage à partir de divers modèles de récompense pour améliorer à la fois la qualité visuelle et l'alignement texte-vidéo. De plus, nous soulignons l'immense espace de conception des stratégies de guidage conditionnel, qui se concentre sur la conception d'une fonction d'énergie efficace pour augmenter le solveur ODE enseignant. Nous démontrons le potentiel de cette approche en extrayant des guidances de mouvement des ensembles de données d'entraînement et en les incorporant dans le solveur ODE, en montrant son efficacité pour améliorer la qualité du mouvement des vidéos générées avec les métriques améliorées liées au mouvement de VBench et T2V-CompBench. Empiriquement, notre T2V-Turbo-v2 établit un nouveau résultat de pointe sur VBench, avec un score total de 85,13, dépassant les systèmes propriétaires tels que Gen-3 et Kling.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V)
model during the post-training phase by distilling a highly capable consistency
model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2,
introduces a significant advancement by integrating various supervision
signals, including high-quality training data, reward model feedback, and
conditional guidance, into the consistency distillation process. Through
comprehensive ablation studies, we highlight the crucial importance of
tailoring datasets to specific learning objectives and the effectiveness of
learning from diverse reward models for enhancing both the visual quality and
text-video alignment. Additionally, we highlight the vast design space of
conditional guidance strategies, which centers on designing an effective energy
function to augment the teacher ODE solver. We demonstrate the potential of
this approach by extracting motion guidance from the training datasets and
incorporating it into the ODE solver, showcasing its effectiveness in improving
the motion quality of the generated videos with the improved motion-related
metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2
establishes a new state-of-the-art result on VBench, with a Total score of
85.13, surpassing proprietary systems such as Gen-3 and Kling.Summary
AI-Generated Summary