ChatPaper.aiChatPaper

MultiCOIN: マルチモーダル制御可能なビデオ中間生成

MultiCOIN: Multi-Modal COntrollable Video INbetweening

October 9, 2025
著者: Maham Tanveer, Yang Zhou, Simon Niklaus, Ali Mahdavi Amiri, Hao Zhang, Krishna Kumar Singh, Nanxuan Zhao
cs.AI

要旨

ビデオインビートウィーニングは、2つの画像フレーム間の滑らかで自然な遷移を作成するため、ビデオ編集や長尺ビデオ合成において不可欠なツールとなっています。この分野における既存の研究は、大規模で複雑、または入り組んだ動きを生成することができません。特に、ユーザーの意図の多様性に対応できず、中間フレームの詳細に対する細かな制御が欠けているため、クリエイティブな意図との不一致が生じています。これらのギャップを埋めるため、我々はMultiCOINを提案します。これは、深度遷移とレイヤリング、モーショントラジェクトリ、テキストプロンプト、動きの局所化のためのターゲット領域など、多様なモーダル制御を可能にするビデオインビートウィーニングフレームワークであり、柔軟性、使いやすさ、細かいビデオ補間の精度のバランスを実現します。これを実現するため、高品質な長尺ビデオを生成する能力が実証されているDiffusion Transformer (DiT) アーキテクチャをビデオ生成モデルとして採用しました。DiTと多様なモーダル制御の互換性を確保するため、すべてのモーション制御を共通のスパースでユーザーフレンドリーなポイントベースの表現としてビデオ/ノイズ入力にマッピングします。さらに、異なる粒度と影響力で動作する制御の多様性を尊重するため、コンテンツ制御とモーション制御を2つのブランチに分離し、必要な特徴をエンコードしてからノイズ除去プロセスをガイドし、モーション用とコンテンツ用の2つのジェネレータを生成します。最後に、多様なモーダル制御をスムーズに学習するための段階的なトレーニング戦略を提案します。広範な定性的および定量的実験により、多様なモーダル制御がよりダイナミックでカスタマイズ可能、かつ文脈的に正確なビジュアルナラティブを実現することが示されました。
English
Video inbetweening creates smooth and natural transitions between two image frames, making it an indispensable tool for video editing and long-form video synthesis. Existing works in this domain are unable to generate large, complex, or intricate motions. In particular, they cannot accommodate the versatility of user intents and generally lack fine control over the details of intermediate frames, leading to misalignment with the creative mind. To fill these gaps, we introduce MultiCOIN, a video inbetweening framework that allows multi-modal controls, including depth transition and layering, motion trajectories, text prompts, and target regions for movement localization, while achieving a balance between flexibility, ease of use, and precision for fine-grained video interpolation. To achieve this, we adopt the Diffusion Transformer (DiT) architecture as our video generative model, due to its proven capability to generate high-quality long videos. To ensure compatibility between DiT and our multi-modal controls, we map all motion controls into a common sparse and user-friendly point-based representation as the video/noise input. Further, to respect the variety of controls which operate at varying levels of granularity and influence, we separate content controls and motion controls into two branches to encode the required features before guiding the denoising process, resulting in two generators, one for motion and the other for content. Finally, we propose a stage-wise training strategy to ensure that our model learns the multi-modal controls smoothly. Extensive qualitative and quantitative experiments demonstrate that multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
PDF02October 14, 2025