GenCompositor: Generatieve Videocompositie met Diffusion Transformer
GenCompositor: Generative Video Compositing with Diffusion Transformer
September 2, 2025
Auteurs: Shuzhou Yang, Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang
cs.AI
Samenvatting
Video compositing combineert live-action beelden om videoproducties te creëren en fungeert als een cruciale techniek in videoproductie en filmproductie. Traditionele workflows vereisen intensieve arbeidsinspanningen en samenwerking tussen experts, wat resulteert in lange productiecycli en hoge personeelskosten. Om dit probleem aan te pakken, automatiseren we dit proces met generatieve modellen, genaamd generatieve video compositing. Deze nieuwe taak streeft ernaar om op een adaptieve manier identiteits- en bewegingsinformatie van voorgrondvideo’s in de doelvideo te injecteren op een interactieve manier, waardoor gebruikers de grootte, bewegingsbaan en andere attributen van de dynamische elementen in de uiteindelijke video kunnen aanpassen. Specifiek hebben we een nieuwe Diffusion Transformer (DiT)-pipeline ontworpen op basis van zijn intrinsieke eigenschappen. Om de consistentie van de doelvideo voor en na bewerking te behouden, hebben we een lichtgewicht DiT-gebaseerde achtergrondbehoudtak herzien met gemaskeerde token-injectie. Om dynamische elementen van andere bronnen over te nemen, is een DiT-fusieblok voorgesteld dat volledige self-attention gebruikt, samen met een eenvoudige maar effectieve voorgrondaugmentatie voor training. Daarnaast hebben we, voor het samenvoegen van achtergrond- en voorgrondvideo’s met verschillende lay-outs op basis van gebruikerscontrole, een nieuwe positionele embedding ontwikkeld, genaamd Extended Rotary Position Embedding (ERoPE). Ten slotte hebben we een dataset samengesteld bestaande uit 61K sets van video’s voor onze nieuwe taak, genaamd VideoComp. Deze data omvat complete dynamische elementen en hoogwaardige doelvideo’s. Experimenten tonen aan dat onze methode generatieve video compositing effectief realiseert en bestaande mogelijke oplossingen overtreft in termen van geloofwaardigheid en consistentie.
English
Video compositing combines live-action footage to create video production,
serving as a crucial technique in video creation and film production.
Traditional pipelines require intensive labor efforts and expert collaboration,
resulting in lengthy production cycles and high manpower costs. To address this
issue, we automate this process with generative models, called generative video
compositing. This new task strives to adaptively inject identity and motion
information of foreground video to the target video in an interactive manner,
allowing users to customize the size, motion trajectory, and other attributes
of the dynamic elements added in final video. Specifically, we designed a novel
Diffusion Transformer (DiT) pipeline based on its intrinsic properties. To
maintain consistency of the target video before and after editing, we revised a
light-weight DiT-based background preservation branch with masked token
injection. As to inherit dynamic elements from other sources, a DiT fusion
block is proposed using full self-attention, along with a simple yet effective
foreground augmentation for training. Besides, for fusing background and
foreground videos with different layouts based on user control, we developed a
novel position embedding, named Extended Rotary Position Embedding (ERoPE).
Finally, we curated a dataset comprising 61K sets of videos for our new task,
called VideoComp. This data includes complete dynamic elements and high-quality
target videos. Experiments demonstrate that our method effectively realizes
generative video compositing, outperforming existing possible solutions in
fidelity and consistency.