ChatPaper.aiChatPaper

T2V-Turbo-v2: Verbetering van het videogeneratiemodel na training door middel van gegevens, beloning en conditionele begeleidingsontwerp.

T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

October 8, 2024
Auteurs: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang
cs.AI

Samenvatting

In dit artikel richten we ons op het verbeteren van een op diffusie gebaseerd tekst-naar-video (T2V) model tijdens de post-training fase door het destilleren van een zeer capabel consistentie model vanuit een voorgeleerd T2V model. Onze voorgestelde methode, T2V-Turbo-v2, introduceert een significante vooruitgang door verschillende supervisiesignalen te integreren, waaronder hoogwaardige trainingsdata, feedback van het beloningsmodel, en conditionele begeleiding, in het consistentie destillatieproces. Via uitgebreide ablatiestudies benadrukken we het cruciale belang van het aanpassen van datasets aan specifieke leerdoelen en de effectiviteit van het leren van diverse beloningsmodellen voor het verbeteren van zowel de visuele kwaliteit als de tekst-video uitlijning. Daarnaast benadrukken we de uitgebreide ontwerpruimte van conditionele begeleidingsstrategieën, die zich richt op het ontwerpen van een effectieve energiefunctie om de leraar ODE oplosser te versterken. We tonen het potentieel van deze aanpak aan door bewegingsbegeleiding uit de trainingsdatasets te extraheren en deze in de ODE oplosser op te nemen, waarbij we de effectiviteit ervan aantonen in het verbeteren van de bewegingskwaliteit van de gegenereerde video's met verbeterde bewegingsgerelateerde metrieken van VBench en T2V-CompBench. Empirisch gezien vestigt onze T2V-Turbo-v2 een nieuwe state-of-the-art resultaat op VBench, met een Totale score van 85.13, waarbij eigen systemen zoals Gen-3 en Kling worden overtroffen.
English
In this paper, we focus on enhancing a diffusion-based text-to-video (T2V) model during the post-training phase by distilling a highly capable consistency model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2, introduces a significant advancement by integrating various supervision signals, including high-quality training data, reward model feedback, and conditional guidance, into the consistency distillation process. Through comprehensive ablation studies, we highlight the crucial importance of tailoring datasets to specific learning objectives and the effectiveness of learning from diverse reward models for enhancing both the visual quality and text-video alignment. Additionally, we highlight the vast design space of conditional guidance strategies, which centers on designing an effective energy function to augment the teacher ODE solver. We demonstrate the potential of this approach by extracting motion guidance from the training datasets and incorporating it into the ODE solver, showcasing its effectiveness in improving the motion quality of the generated videos with the improved motion-related metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2 establishes a new state-of-the-art result on VBench, with a Total score of 85.13, surpassing proprietary systems such as Gen-3 and Kling.
PDF142November 16, 2024