ChatPaper.aiChatPaper

Многоуровневая композиция видео через разделение и объединение

Layer-Aware Video Composition via Split-then-Merge

November 25, 2025
Авторы: Ozgur Kara, Yujia Chen, Ming-Hsuan Yang, James M. Rehg, Wen-Sheng Chu, Du Tran
cs.AI

Аннотация

Мы представляем Split-then-Merge (StM) — новую концепцию, разработанную для улучшения управления в генеративной композиции видео и решения проблемы нехватки данных. В отличие от традиционных методов, основанных на размеченных наборах данных или ручных правилах, StM разделяет большой корпус немаркированных видео на динамические слои переднего и заднего плана, а затем самостоятельно компонует их, чтобы научиться тому, как динамические объекты взаимодействуют с различными сценами. Этот процесс позволяет модели изучить сложную композиционную динамику, необходимую для реалистичного генерации видео. StM представляет собой новую обучающую процедуру, учитывающую трансформации, которая использует многоуровневое слияние и аугментацию для достижения композиции с учетом аффордансов, а также функцию потерь для сохранения идентичности, которая поддерживает достоверность переднего плана при смешивании. Эксперименты показывают, что StM превосходит современные методы как по количественным метрикам, так и в качественных оценках, проведенных людьми и с помощью VLLM. Более подробная информация доступна на странице проекта: https://split-then-merge.github.io.
English
We present Split-then-Merge (StM), a novel framework designed to enhance control in generative video composition and address its data scarcity problem. Unlike conventional methods relying on annotated datasets or handcrafted rules, StM splits a large corpus of unlabeled videos into dynamic foreground and background layers, then self-composes them to learn how dynamic subjects interact with diverse scenes. This process enables the model to learn the complex compositional dynamics required for realistic video generation. StM introduces a novel transformation-aware training pipeline that utilizes a multi-layer fusion and augmentation to achieve affordance-aware composition, alongside an identity-preservation loss that maintains foreground fidelity during blending. Experiments show StM outperforms SoTA methods in both quantitative benchmarks and in humans/VLLM-based qualitative evaluations. More details are available at our project page: https://split-then-merge.github.io
PDF21December 2, 2025