ChatPaper.aiChatPaper

Let op de Tijd: Temporeel-Gestuurde Multi-Gebeurtenis Video Generatie

Mind the Time: Temporally-Controlled Multi-Event Video Generation

December 6, 2024
Auteurs: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI

Samenvatting

Echte video's bestaan uit opeenvolgingen van gebeurtenissen. Het genereren van dergelijke opeenvolgingen met nauwkeurige temporele controle is onhaalbaar met bestaande videogeneratoren die vertrouwen op een enkele alinea tekst als invoer. Wanneer ze belast worden met het genereren van meerdere gebeurtenissen beschreven met een enkele prompt, negeren dergelijke methoden vaak sommige van de gebeurtenissen of slagen ze er niet in om ze in de juiste volgorde te plaatsen. Om deze beperking aan te pakken, presenteren we MinT, een multi-gebeurtenis video-generator met temporele controle. Ons belangrijk inzicht is om elke gebeurtenis te koppelen aan een specifieke periode in de gegenereerde video, waardoor het model zich op één gebeurtenis tegelijk kan concentreren. Om tijdsbewuste interacties tussen gebeurtenisbijschriften en videotokens mogelijk te maken, ontwerpen we een op tijd gebaseerde positionele coderingsmethode, genaamd ReRoPE. Deze codering helpt bij het sturen van de kruislingse aandachtsoperatie. Door een vooraf getrainde video-diffusietransformer af te stemmen op temporeel gefundeerde gegevens, produceert onze benadering samenhangende video's met soepel verbonden gebeurtenissen. Voor het eerst in de literatuur biedt ons model controle over de timing van gebeurtenissen in gegenereerde video's. Uitgebreide experimenten tonen aan dat MinT bestaande open-source modellen veruit overtreft.
English
Real-world videos consist of sequences of events. Generating such sequences with precise temporal control is infeasible with existing video generators that rely on a single paragraph of text as input. When tasked with generating multiple events described using a single prompt, such methods often ignore some of the events or fail to arrange them in the correct order. To address this limitation, we present MinT, a multi-event video generator with temporal control. Our key insight is to bind each event to a specific period in the generated video, which allows the model to focus on one event at a time. To enable time-aware interactions between event captions and video tokens, we design a time-based positional encoding method, dubbed ReRoPE. This encoding helps to guide the cross-attention operation. By fine-tuning a pre-trained video diffusion transformer on temporally grounded data, our approach produces coherent videos with smoothly connected events. For the first time in the literature, our model offers control over the timing of events in generated videos. Extensive experiments demonstrate that MinT outperforms existing open-source models by a large margin.
PDF112December 9, 2024