Laagbewuste Videocompositie via Splitsen-dan-Samenvoegen
Layer-Aware Video Composition via Split-then-Merge
November 25, 2025
Auteurs: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI
Samenvatting
Wij presenteren Split-then-Merge (StM), een nieuw raamwerk ontworpen om de controle over generatieve videocompositie te verbeteren en het daaraan gerelateerde dataschaarsteprobleem aan te pakken. In tegenstelling tot conventionele methoden die vertrouwen op geannoteerde datasets of handmatige regels, splitst StM een grote corpus van ongelabelde video's in dynamische voorgrond- en achtergrondlagen, om deze vervolgens zelf te componeren en zo te leren hoe dynamische onderwerpen interacteren met diverse scènes. Dit proces stelt het model in staat om de complexe compositionele dynamiek te leren die vereist is voor realistische videogeneratie. StM introduceert een nieuwe transformatiebewuste trainingspijplijn die gebruikmaakt van multi-layer fusie en augmentatie om affordance-bewuste compositie te bereiken, naast een identiteitsbehoudsverlies dat de voorgrondtrouw tijdens het blendproces waarborgt. Experimenten tonen aan dat StM state-of-the-art-methoden overtreft in zowel kwantitatieve benchmarks als in op mensen/VLLM gebaseerde kwalitatieve evaluaties. Meer details zijn beschikbaar op onze projectpagina: https://split-then-merge.github.io.
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io