ChatPaper.aiChatPaper

分割・統合によるレイヤー認識ビデオ合成

Layer-Aware Video Composition via Split-then-Merge

November 25, 2025
著者: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI

要旨

本論文では、生成動画合成における制御性を向上させ、そのデータ不足問題に対処する新しいフレームワーク「Split-then-Merge(StM)」を提案する。注釈付きデータセットや手作りのルールに依存する従来手法とは異なり、StMは大規模なラベルなし動画コーパスを動的な前景層と背景層に分割し、それらを自己合成することで、動的な被写体が多様なシーンとどのように相互作用するかを学習する。このプロセスにより、モデルは写実的な動画生成に必要な複雑な合成的ダイナミクスを学習することが可能となる。StMは、アフォーダンスを考慮した合成を実現するための多層融合と拡張を利用する、新しい変換認識トレーニングパイプラインと、合成時の前景の忠実性を維持する同一性保持損失を導入する。実験により、StMが定量的ベンチマークと人間/VLLMベースの定性的評価の両方において、SoTA手法を凌駕することを示す。詳細はプロジェクトページ(https://split-then-merge.github.io)を参照されたい。
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io
PDF21December 2, 2025