T2V-Turbo-v2: Улучшение модели генерации видео после обучения через данные, вознаграждение и кондиционное руководство.
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design
October 8, 2024
Авторы: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI
Аннотация
В данной статье мы сосредотачиваемся на улучшении модели текст-видео (T2V) на основе диффузии во время пост-тренировочной фазы путем дистилляции высококачественной модели согласованности из предварительно обученной модели T2V. Наш метод, T2V-Turbo-v2, представляет собой значительное продвижение за счет интеграции различных сигналов надзора, включая данные обучения высокого качества, обратную связь модели вознаграждения и условное руководство, в процесс дистилляции согласованности. Через обширные исследования абляции мы подчеркиваем критическое значение адаптации наборов данных под конкретные учебные цели и эффективность обучения от разнообразных моделей вознаграждения для улучшения как визуального качества, так и согласованности текста и видео. Кроме того, мы выделяем обширное пространство конструктивных стратегий, связанных с условным руководством, которое сосредотачивается на разработке эффективной энергетической функции для усиления решателя ОДУ-учителя. Мы демонстрируем потенциал этого подхода путем извлечения движения из обучающих наборов данных и интеграции его в решатель ОДУ, демонстрируя его эффективность в улучшении качества движения созданных видео с улучшенными метриками, связанными с движением, из VBench и T2V-CompBench. Эмпирически наш T2V-Turbo-v2 устанавливает новый результат state-of-the-art на VBench, с общим баллом 85,13, превосходя собственные системы, такие как Gen-3 и Kling.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V)
model during the post-training phase by distilling a highly capable consistency
model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2,
introduces a significant advancement by integrating various supervision
signals, including high-quality training data, reward model feedback, and
conditional guidance, into the consistency distillation process. Through
comprehensive ablation studies, we highlight the crucial importance of
tailoring datasets to specific learning objectives and the effectiveness of
learning from diverse reward models for enhancing both the visual quality and
text-video alignment. Additionally, we highlight the vast design space of
conditional guidance strategies, which centers on designing an effective energy
function to augment the teacher ODE solver. We demonstrate the potential of
this approach by extracting motion guidance from the training datasets and
incorporating it into the ODE solver, showcasing its effectiveness in improving
the motion quality of the generated videos with the improved motion-related
metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2
establishes a new state-of-the-art result on VBench, with a Total score of
85.13, surpassing proprietary systems such as Gen-3 and Kling.Summary
AI-Generated Summary