ChatPaper.aiChatPaper

Composición de Video Consciente de Capas mediante División y Fusión

Layer-Aware Video Composition via Split-then-Merge

November 25, 2025
Autores: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI

Resumen

Presentamos Split-then-Merge (StM), un marco novedoso diseñado para mejorar el control en la composición generativa de vídeos y abordar su problema de escasez de datos. A diferencia de los métodos convencionales que dependen de conjuntos de datos anotados o reglas hechas a mano, StM divide un gran corpus de vídeos no etiquetados en capas dinámicas de primer plano y fondo, para luego auto-componerlas y aprender cómo los sujetos dinámicos interactúan con escenas diversas. Este proceso permite que el modelo aprenda la dinámica compositiva compleja requerida para la generación realista de vídeos. StM introduce un novedoso pipeline de entrenamiento consciente de la transformación que utiliza una fusión y aumento multicapa para lograr una composición consciente de la affordance, junto con una función de pérdida de preservación de identidad que mantiene la fidelidad del primer plano durante la mezcla. Los experimentos muestran que StM supera a los métodos estado del arte tanto en benchmarks cuantitativos como en evaluaciones cualitativas basadas en humanos y modelos de lenguaje grandes (VLLM). Más detalles están disponibles en nuestra página del proyecto: https://split-then-merge.github.io.
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io
PDF21December 2, 2025