VIMI: Verankerung der Videogenerierung durch multimodale Anweisungen
VIMI: Grounding Video Generation through Multi-modal Instruction
July 8, 2024
Autoren: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI
Zusammenfassung
Bestehende Text-zu-Video-Diffusionsmodelle stützen sich ausschließlich auf Text-Encoder für ihr Pretraining. Diese Einschränkung resultiert aus dem Fehlen von groß angelegten multimodalen Prompt-Video-Datensätzen, was zu einem Mangel an visueller Verankerung führt und ihre Vielseitigkeit und Anwendung in der multimodalen Integration einschränkt. Um dem entgegenzuwirken, konstruieren wir einen groß angelegten multimodalen Prompt-Datensatz, indem wir Abrufmethoden einsetzen, um In-Context-Beispiele mit den gegebenen Text-Prompts zu verknüpfen und dann eine Zwei-Stufen-Trainingsstrategie nutzen, um vielfältige Videoerstellungsaufgaben innerhalb desselben Modells zu ermöglichen. In der ersten Stufe schlagen wir ein multimodales bedingtes Videoerstellungsrahmenwerk für das Pretraining auf diesen erweiterten Datensätzen vor, um ein Grundmodell für verankerte Videoerstellung zu etablieren. Zweitens feinabstimmen wir das Modell aus der ersten Stufe auf drei Videoerstellungsaufgaben, die multimodale Anweisungen integrieren. Dieser Prozess verfeinert die Fähigkeit des Modells, vielfältige Eingaben und Aufgaben zu bewältigen, und gewährleistet eine nahtlose Integration multimodaler Informationen. Nach diesem Zwei-Stufen-Trainingsprozess zeigt VIMI multimodale Verständnisfähigkeiten, indem es kontextuell reiche und personalisierte Videos produziert, die auf den bereitgestellten Eingaben basieren, wie in Abbildung 1 gezeigt. Im Vergleich zu früheren visuell verankerten Videoerstellungsmethoden kann VIMI konsistente und zeitlich kohärente Videos mit großer Bewegung synthetisieren und dabei die semantische Kontrolle beibehalten. Schließlich erzielt VIMI auch Spitzenleistung bei der Text-zu-Video-Erstellung auf dem UCF101-Benchmark.
English
Existing text-to-video diffusion models rely solely on text-only encoders for
their pretraining. This limitation stems from the absence of large-scale
multimodal prompt video datasets, resulting in a lack of visual grounding and
restricting their versatility and application in multimodal integration. To
address this, we construct a large-scale multimodal prompt dataset by employing
retrieval methods to pair in-context examples with the given text prompts and
then utilize a two-stage training strategy to enable diverse video generation
tasks within the same model. In the first stage, we propose a multimodal
conditional video generation framework for pretraining on these augmented
datasets, establishing a foundational model for grounded video generation.
Secondly, we finetune the model from the first stage on three video generation
tasks, incorporating multi-modal instructions. This process further refines the
model's ability to handle diverse inputs and tasks, ensuring seamless
integration of multi-modal information. After this two-stage train-ing process,
VIMI demonstrates multimodal understanding capabilities, producing contextually
rich and personalized videos grounded in the provided inputs, as shown in
Figure 1. Compared to previous visual grounded video generation methods, VIMI
can synthesize consistent and temporally coherent videos with large motion
while retaining the semantic control. Lastly, VIMI also achieves
state-of-the-art text-to-video generation results on UCF101 benchmark.Summary
AI-Generated Summary