Composição de Vídeo Consciente de Camadas via Divisão e Fusão
Layer-Aware Video Composition via Split-then-Merge
November 25, 2025
Autores: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI
Resumo
Apresentamos o Split-then-Merge (StM), uma nova estrutura concebida para melhorar o controlo na composição generativa de vídeo e resolver o seu problema de escassez de dados. Ao contrário dos métodos convencionais que dependem de conjuntos de dados anotados ou de regras manuais, o StM divide um grande corpus de vídeos não rotulados em camadas dinâmicas de primeiro plano e fundo, e depois auto-compõe-nos para aprender como os sujeitos dinâmicos interagem com diversas cenas. Este processo permite que o modelo aprenda as dinâmicas compositivas complexas necessárias para a geração realista de vídeo. O StM introduz um *pipeline* de treino inovador, consciente da transformação, que utiliza uma fusão e aumento multicamada para alcançar uma composição consciente da *affordance*, juntamente com uma função de perda de preservação de identidade que mantém a fidelidade do primeiro plano durante a mistura. As experiências mostram que o StM supera os métodos de estado da arte tanto em benchmarks quantitativos como em avaliações qualitativas baseadas em humanos e em modelos de linguagem visual (VLLM). Mais detalhes estão disponíveis na nossa página do projeto: https://split-then-merge.github.io.
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io