GenCompositor: Composizione Video Generativa con Trasformatori a Diffusione
GenCompositor: Generative Video Compositing with Diffusion Transformer
September 2, 2025
Autori: Shuzhou Yang, Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang
cs.AI
Abstract
Il compositing video combina riprese live-action per creare produzioni video, rappresentando una tecnica cruciale nella creazione di video e nella produzione cinematografica. Le pipeline tradizionali richiedono sforzi lavorativi intensivi e collaborazioni di esperti, risultando in cicli di produzione lunghi e costi di manodopera elevati. Per affrontare questo problema, automatizziamo questo processo con modelli generativi, chiamato compositing video generativo. Questo nuovo compito mira a iniettare in modo adattivo le informazioni di identità e movimento di un video in primo piano nel video target in modo interattivo, consentendo agli utenti di personalizzare le dimensioni, la traiettoria del movimento e altri attributi degli elementi dinamici aggiunti nel video finale. Nello specifico, abbiamo progettato una nuova pipeline basata su un Transformer di Diffusione (DiT) sfruttando le sue proprietà intrinseche. Per mantenere la coerenza del video target prima e dopo la modifica, abbiamo revisionato un ramo leggero di preservazione dello sfondo basato su DiT con iniezione di token mascherati. Per ereditare elementi dinamici da altre fonti, è stato proposto un blocco di fusione DiT utilizzando l'auto-attenzione completa, insieme a una semplice ma efficace aumentazione del primo piano per l'allenamento. Inoltre, per fondere video di sfondo e primo piano con layout diversi basati sul controllo dell'utente, abbiamo sviluppato un nuovo embedding di posizione, chiamato Extended Rotary Position Embedding (ERoPE). Infine, abbiamo curato un dataset composto da 61K set di video per il nostro nuovo compito, chiamato VideoComp. Questo dataset include elementi dinamici completi e video target di alta qualità. Gli esperimenti dimostrano che il nostro metodo realizza efficacemente il compositing video generativo, superando le soluzioni esistenti in termini di fedeltà e coerenza.
English
Video compositing combines live-action footage to create video production,
serving as a crucial technique in video creation and film production.
Traditional pipelines require intensive labor efforts and expert collaboration,
resulting in lengthy production cycles and high manpower costs. To address this
issue, we automate this process with generative models, called generative video
compositing. This new task strives to adaptively inject identity and motion
information of foreground video to the target video in an interactive manner,
allowing users to customize the size, motion trajectory, and other attributes
of the dynamic elements added in final video. Specifically, we designed a novel
Diffusion Transformer (DiT) pipeline based on its intrinsic properties. To
maintain consistency of the target video before and after editing, we revised a
light-weight DiT-based background preservation branch with masked token
injection. As to inherit dynamic elements from other sources, a DiT fusion
block is proposed using full self-attention, along with a simple yet effective
foreground augmentation for training. Besides, for fusing background and
foreground videos with different layouts based on user control, we developed a
novel position embedding, named Extended Rotary Position Embedding (ERoPE).
Finally, we curated a dataset comprising 61K sets of videos for our new task,
called VideoComp. This data includes complete dynamic elements and high-quality
target videos. Experiments demonstrate that our method effectively realizes
generative video compositing, outperforming existing possible solutions in
fidelity and consistency.