Composizione Video Consapevole dei Livelli tramite Divisione e Fusione
Layer-Aware Video Composition via Split-then-Merge
November 25, 2025
Autori: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI
Abstract
Presentiamo Split-then-Merge (StM), un framework innovativo progettato per migliorare il controllo nella composizione generativa di video e affrontare il problema della scarsità di dati. A differenza dei metodi convenzionali che si basano su dataset annotati o regole predefinite, StM suddivide un ampio corpus di video non etichettati in livelli dinamici di primo piano e sfondo, per poi ricomporli autonomamente per apprendere come i soggetti dinamici interagiscono con scene diverse. Questo processo consente al modello di apprendere le complesse dinamiche compositive necessarie per una generazione video realistica. StM introduce una nuova pipeline di addestramento transformation-aware che utilizza una fusione e un aumento multi-livello per ottenere una composizione affordance-aware, affiancata da una funzione di perdita per la preservazione dell'identità che mantiene la fedeltà del primo piano durante la fusione. Gli esperimenti dimostrano che StM supera i metodi allo stato dell'arte sia nei benchmark quantitativi che nelle valutazioni qualitative basate su umani e VLLM. Maggiori dettagli sono disponibili sulla nostra pagina progetto: https://split-then-merge.github.io
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io