ChatPaper.aiChatPaper

T2V-Turbo-v2: Mejora del modelo de generación de video post-entrenamiento a través de Diseño de Datos, Recompensa y Orientación Condicional

T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

October 8, 2024
Autores: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI

Resumen

En este documento, nos enfocamos en mejorar un modelo texto-a-video (T2V) basado en difusión durante la fase de post-entrenamiento mediante la destilación de un modelo de consistencia altamente capaz de un modelo T2V preentrenado. Nuestro método propuesto, T2V-Turbo-v2, introduce un avance significativo al integrar varios señales de supervisión, incluyendo datos de entrenamiento de alta calidad, retroalimentación del modelo de recompensa y guía condicional, en el proceso de destilación de consistencia. A través de estudios de ablación exhaustivos, resaltamos la importancia crucial de adaptar conjuntos de datos a objetivos de aprendizaje específicos y la efectividad de aprender de diversos modelos de recompensa para mejorar tanto la calidad visual como la alineación texto-video. Además, destacamos el vasto espacio de diseño de estrategias de guía condicional, que se centra en diseñar una función de energía efectiva para aumentar el solucionador ODE del profesor. Demostramos el potencial de este enfoque extrayendo guía de movimiento de los conjuntos de datos de entrenamiento e incorporándola en el solucionador ODE, mostrando su efectividad en mejorar la calidad de movimiento de los videos generados con las métricas mejoradas relacionadas con el movimiento de VBench y T2V-CompBench. Empíricamente, nuestro T2V-Turbo-v2 establece un nuevo resultado de vanguardia en VBench, con una puntuación Total de 85.13, superando a sistemas propietarios como Gen-3 y Kling.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V) model during the post-training phase by distilling a highly capable consistency model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2, introduces a significant advancement by integrating various supervision signals, including high-quality training data, reward model feedback, and conditional guidance, into the consistency distillation process. Through comprehensive ablation studies, we highlight the crucial importance of tailoring datasets to specific learning objectives and the effectiveness of learning from diverse reward models for enhancing both the visual quality and text-video alignment. Additionally, we highlight the vast design space of conditional guidance strategies, which centers on designing an effective energy function to augment the teacher ODE solver. We demonstrate the potential of this approach by extracting motion guidance from the training datasets and incorporating it into the ODE solver, showcasing its effectiveness in improving the motion quality of the generated videos with the improved motion-related metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2 establishes a new state-of-the-art result on VBench, with a Total score of 85.13, surpassing proprietary systems such as Gen-3 and Kling.

Summary

AI-Generated Summary

PDF142November 16, 2024