Achte auf die Zeit: Temporal gesteuerte Multi-Event Video Generierung
Mind the Time: Temporally-Controlled Multi-Event Video Generation
December 6, 2024
Autoren: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI
Zusammenfassung
Realitätsnahe Videos bestehen aus Sequenzen von Ereignissen. Die Generierung solcher Sequenzen mit präziser zeitlicher Steuerung ist mit den bestehenden Videogeneratoren, die auf einen einzelnen Textabsatz als Eingabe angewiesen sind, nicht machbar. Wenn diese Generatoren damit beauftragt werden, mehrere Ereignisse zu generieren, die durch eine einzige Anweisung beschrieben sind, ignorieren solche Methoden oft einige Ereignisse oder ordnen sie nicht in der richtigen Reihenfolge an. Um diese Einschränkung zu überwinden, präsentieren wir MinT, einen Multi-Ereignis-Videogenerator mit zeitlicher Steuerung. Unser Schlüsselerkenntnis besteht darin, jedes Ereignis an einen spezifischen Zeitraum im generierten Video zu binden, was es dem Modell ermöglicht, sich jeweils auf ein Ereignis zu konzentrieren. Um zeitbewusste Interaktionen zwischen Ereignisbeschreibungen und Videotokens zu ermöglichen, haben wir eine zeitbasierte Positionscodierungsmethode namens ReRoPE entwickelt. Diese Codierung hilft, die Kreuz-Aufmerksamkeitsoperation zu lenken. Durch Feinabstimmung eines vorab trainierten Video-Diffusionstransformators auf zeitlich verankerten Daten erzeugt unser Ansatz kohärente Videos mit nahtlos verbundenen Ereignissen. Zum ersten Mal in der Literatur bietet unser Modell die Steuerung über die zeitliche Abfolge von Ereignissen in generierten Videos. Umfangreiche Experimente zeigen, dass MinT bestehende Open-Source-Modelle bei weitem übertrifft.
English
Real-world videos consist of sequences of events. Generating such sequences
with precise temporal control is infeasible with existing video generators that
rely on a single paragraph of text as input. When tasked with generating
multiple events described using a single prompt, such methods often ignore some
of the events or fail to arrange them in the correct order. To address this
limitation, we present MinT, a multi-event video generator with temporal
control. Our key insight is to bind each event to a specific period in the
generated video, which allows the model to focus on one event at a time. To
enable time-aware interactions between event captions and video tokens, we
design a time-based positional encoding method, dubbed ReRoPE. This encoding
helps to guide the cross-attention operation. By fine-tuning a pre-trained
video diffusion transformer on temporally grounded data, our approach produces
coherent videos with smoothly connected events. For the first time in the
literature, our model offers control over the timing of events in generated
videos. Extensive experiments demonstrate that MinT outperforms existing
open-source models by a large margin.Summary
AI-Generated Summary