Gardez le temps à l'esprit : Génération de vidéos multi-événements contrôlée temporellement
Mind the Time: Temporally-Controlled Multi-Event Video Generation
December 6, 2024
Auteurs: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI
Résumé
Les vidéos du monde réel sont composées de séquences d'événements. Générer de telles séquences avec un contrôle temporel précis est irréalisable avec les générateurs vidéo existants qui se basent sur un seul paragraphe de texte en entrée. Lorsqu'ils sont chargés de générer plusieurs événements décrits à l'aide d'une seule instruction, ces méthodes ignorent souvent certains événements ou échouent à les organiser dans le bon ordre. Pour remédier à cette limitation, nous présentons MinT, un générateur vidéo multi-événements avec contrôle temporel. Notre insight clé est d'associer chaque événement à une période spécifique dans la vidéo générée, ce qui permet au modèle de se concentrer sur un événement à la fois. Pour permettre des interactions conscientes du temps entre les légendes d'événements et les jetons vidéo, nous concevons une méthode d'encodage de position basée sur le temps, appelée ReRoPE. Cet encodage aide à guider l'opération de co-attention. En affinant un transformateur de diffusion vidéo pré-entraîné sur des données temporellement ancrées, notre approche produit des vidéos cohérentes avec des événements connectés de manière fluide. Pour la première fois dans la littérature, notre modèle offre un contrôle sur le timing des événements dans les vidéos générées. Des expériences approfondies démontrent que MinT surpasse de loin les modèles open source existants.
English
Real-world videos consist of sequences of events. Generating such sequences
with precise temporal control is infeasible with existing video generators that
rely on a single paragraph of text as input. When tasked with generating
multiple events described using a single prompt, such methods often ignore some
of the events or fail to arrange them in the correct order. To address this
limitation, we present MinT, a multi-event video generator with temporal
control. Our key insight is to bind each event to a specific period in the
generated video, which allows the model to focus on one event at a time. To
enable time-aware interactions between event captions and video tokens, we
design a time-based positional encoding method, dubbed ReRoPE. This encoding
helps to guide the cross-attention operation. By fine-tuning a pre-trained
video diffusion transformer on temporally grounded data, our approach produces
coherent videos with smoothly connected events. For the first time in the
literature, our model offers control over the timing of events in generated
videos. Extensive experiments demonstrate that MinT outperforms existing
open-source models by a large margin.Summary
AI-Generated Summary