ChatPaper.aiChatPaper

Schichtbewusste Videokomposition durch Teilen-und-Zusammenfügen

Layer-Aware Video Composition via Split-then-Merge

November 25, 2025
papers.authors: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI

papers.abstract

Wir stellen Split-then-Merge (StM) vor, einen neuartigen Rahmen zur Verbesserung der Kontrolle bei der generativen Videokomposition und zur Lösung ihres Datenknappheitsproblems. Im Gegensatz zu konventionellen Methoden, die auf annotierten Datensätzen oder handgefertigten Regeln basieren, teilt StM einen großen Korpus ungelabelter Videos in dynamische Vorder- und Hintergrundebenen auf, um sie anschließend selbstständig neu zusammenzusetzen und so zu erlernen, wie sich dynamische Objekte mit verschiedenen Szenen interagieren. Dieser Prozess ermöglicht es dem Modell, die komplexen kompositionellen Dynamiken zu erlernen, die für eine realistische Videogenerierung erforderlich sind. StM führt eine neuartige transformationssensible Trainingspipeline ein, die eine Multi-Layer-Fusion und -Augmentierung nutzt, um eine affordanzbewusste Komposition zu erreichen, ergänzt durch einen identitätserhaltenden Verlust, der die Vordergrundtreue während des Blendings bewahrt. Experimente zeigen, dass StM state-of-the-art-Methoden sowohl in quantitativen Benchmarks als auch in human- und VLLM-basierten qualitativen Evaluierungen übertrifft. Weitere Details sind auf unserer Projektseite verfügbar: https://split-then-merge.github.io
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io
PDF21December 2, 2025