분할-병합 방식을 통한 레이어 인식 비디오 합성
Layer-Aware Video Composition via Split-then-Merge
November 25, 2025
저자: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI
초록
우리는 생성적 비디오 합성에서의 제어력을 향상시키고 데이터 부족 문제를 해결하기 위한 새로운 프레임워크인 Split-then-Merge(StM)를 제안합니다. 주석이 달린 데이터셋이나 수작업 규칙에 의존하는 기존 방법과 달리, StM은 대규모의 레이블 없는 비디오 코퍼스를 동적인 전경 레이어와 배경 레이어로 분할한 후, 이를 자기 합성하여 다양한 장면과 동적 객체가 어떻게 상호작용하는지를 학습합니다. 이 과정을 통해 모델은 사실적인 비디오 생성에 필요한 복잡한 합성 역학을 습득할 수 있습니다. StM은 어포던스 인식 합성을 위해 다중 레이어 융합 및 증강을 활용하는 새로운 변형 인지 훈련 파이프라인과, 블렌딩 과정에서 전경의 정확도를 유지하는 정체성 보존 손실을 도입합니다. 실험 결과, StM은 정량적 벤치마크와 인간/VLLM 기반 정성적 평가 모두에서 최신 기술을 능가하는 성능을 보여줍니다. 자세한 내용은 프로젝트 페이지(https://split-then-merge.github.io)에서 확인할 수 있습니다.
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io