ChatPaper.aiChatPaper

時間に注意:時間制御マルチイベントビデオ生成

Mind the Time: Temporally-Controlled Multi-Event Video Generation

December 6, 2024
著者: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI

要旨

現実世界のビデオは、イベントの連続から成り立っています。既存のビデオ生成器では、単一のテキスト段落を入力とするため、正確な時間制御を持つこれらのシーケンスを生成することは不可能です。単一のプロンプトを使用して複数のイベントを生成するように指示された場合、これらの方法はしばしばイベントの一部を無視したり、正しい順序で配置できなかったりします。この制限に対処するために、時間制御を持つマルチイベントビデオ生成器であるMinTを提案します。私たちの主要な洞察は、生成されたビデオ内の各イベントを特定の期間にバインドすることであり、これによりモデルは一度に1つのイベントに焦点を当てることができます。イベントのキャプションとビデオトークンの間で時間に敏感な相互作用を可能にするために、ReRoPEと名付けられた時間ベースの位置エンコーディング手法を設計します。このエンコーディングは、クロスアテンション操作をガイドするのに役立ちます。事前にトレーニングされたビデオディフュージョントランスフォーマーを時間的に基盤となるデータで微調整することで、私たちの手法は滑らかに接続されたイベントを持つ一貫したビデオを生成します。文献では初めて、私たちのモデルは生成されたビデオ内のイベントのタイミングを制御する機能を提供します。広範な実験により、MinTが既存のオープンソースモデルを大幅に上回ることが示されています。
English
Real-world videos consist of sequences of events. Generating such sequences with precise temporal control is infeasible with existing video generators that rely on a single paragraph of text as input. When tasked with generating multiple events described using a single prompt, such methods often ignore some of the events or fail to arrange them in the correct order. To address this limitation, we present MinT, a multi-event video generator with temporal control. Our key insight is to bind each event to a specific period in the generated video, which allows the model to focus on one event at a time. To enable time-aware interactions between event captions and video tokens, we design a time-based positional encoding method, dubbed ReRoPE. This encoding helps to guide the cross-attention operation. By fine-tuning a pre-trained video diffusion transformer on temporally grounded data, our approach produces coherent videos with smoothly connected events. For the first time in the literature, our model offers control over the timing of events in generated videos. Extensive experiments demonstrate that MinT outperforms existing open-source models by a large margin.
PDF112December 9, 2024