ChatPaper.aiChatPaper

Composition vidéo par conscience des couches via division puis fusion

Layer-Aware Video Composition via Split-then-Merge

November 25, 2025
papers.authors: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI

papers.abstract

Nous présentons Split-then-Merge (StM), un nouveau cadre conçu pour améliorer le contrôle dans la composition vidéo générative et résoudre son problème de pénurie de données. Contrairement aux méthodes conventionnelles qui reposent sur des ensembles de données annotés ou des règles prédéfinies, StM divise un large corpus de vidéos non étiquetées en couches dynamiques de premier plan et d'arrière-plan, puis les recompose de manière autonome pour apprendre comment les sujets dynamiques interagissent avec des scènes diverses. Ce processus permet au modèle d'apprendre les dynamiques compositionnelles complexes nécessaires à la génération de vidéos réalistes. StM introduit une nouvelle pipeline d'entraînement sensible aux transformations qui utilise une fusion et une augmentation multicouches pour parvenir à une composition tenant compte des affordances, ainsi qu'une fonction de perte de préservation de l'identité qui maintient la fidélité du premier plan lors du mélange. Les expériences montrent que StM surpasse les méthodes de l'état de l'art à la fois dans les benchmarks quantitatifs et dans les évaluations qualitatives basées sur des juges humains et des modèles de langage de grande taille. Plus de détails sont disponibles sur notre page de projet : https://split-then-merge.github.io.
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io
PDF21December 2, 2025