T2V-Turbo-v2: Melhorando o Modelo de Geração de Vídeo Pós-Treinamento por meio de Design de Dados, Recompensa e Orientação Condicional
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design
October 8, 2024
Autores: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI
Resumo
Neste artigo, focamos em aprimorar um modelo texto-para-vídeo (T2V) baseado em difusão durante a fase pós-treinamento, destilando um modelo de consistência altamente capaz a partir de um modelo T2V pré-treinado. Nosso método proposto, T2V-Turbo-v2, apresenta um avanço significativo ao integrar vários sinais de supervisão, incluindo dados de treinamento de alta qualidade, feedback do modelo de recompensa e orientação condicional, no processo de destilação de consistência. Através de estudos abrangentes de ablação, destacamos a importância crucial de adaptar conjuntos de dados para objetivos de aprendizado específicos e a eficácia de aprender com diversos modelos de recompensa para aprimorar tanto a qualidade visual quanto o alinhamento texto-vídeo. Além disso, destacamos o vasto espaço de design de estratégias de orientação condicional, que se concentra em projetar uma função de energia eficaz para aumentar o resolvedor ODE do professor. Demonstramos o potencial deste enfoque ao extrair orientação de movimento dos conjuntos de dados de treinamento e incorporá-la no resolvedor ODE, demonstrando sua eficácia em melhorar a qualidade de movimento dos vídeos gerados com as métricas relacionadas ao movimento aprimoradas do VBench e T2V-CompBench. Empiricamente, nosso T2V-Turbo-v2 estabelece um novo resultado de ponta no VBench, com uma pontuação Total de 85,13, superando sistemas proprietários como Gen-3 e Kling.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V)
model during the post-training phase by distilling a highly capable consistency
model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2,
introduces a significant advancement by integrating various supervision
signals, including high-quality training data, reward model feedback, and
conditional guidance, into the consistency distillation process. Through
comprehensive ablation studies, we highlight the crucial importance of
tailoring datasets to specific learning objectives and the effectiveness of
learning from diverse reward models for enhancing both the visual quality and
text-video alignment. Additionally, we highlight the vast design space of
conditional guidance strategies, which centers on designing an effective energy
function to augment the teacher ODE solver. We demonstrate the potential of
this approach by extracting motion guidance from the training datasets and
incorporating it into the ODE solver, showcasing its effectiveness in improving
the motion quality of the generated videos with the improved motion-related
metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2
establishes a new state-of-the-art result on VBench, with a Total score of
85.13, surpassing proprietary systems such as Gen-3 and Kling.Summary
AI-Generated Summary