GenCompositor : Composition vidéo générative avec transformateur de diffusion
GenCompositor: Generative Video Compositing with Diffusion Transformer
September 2, 2025
papers.authors: Shuzhou Yang, Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang
cs.AI
papers.abstract
Le compositing vidéo combine des séquences en prise de vue réelle pour créer une production vidéo, constituant une technique essentielle dans la création vidéo et la production cinématographique. Les pipelines traditionnels nécessitent des efforts laborieux intensifs et une collaboration experte, entraînant des cycles de production longs et des coûts de main-d'œuvre élevés. Pour résoudre ce problème, nous automatisons ce processus avec des modèles génératifs, appelés compositing vidéo génératif. Cette nouvelle tâche vise à injecter de manière adaptative les informations d'identité et de mouvement d'une vidéo de premier plan dans une vidéo cible de manière interactive, permettant aux utilisateurs de personnaliser la taille, la trajectoire de mouvement et d'autres attributs des éléments dynamiques ajoutés dans la vidéo finale. Plus précisément, nous avons conçu un pipeline novateur basé sur un Transformeur de Diffusion (DiT) en exploitant ses propriétés intrinsèques. Pour maintenir la cohérence de la vidéo cible avant et après l'édition, nous avons révisé une branche légère de préservation de l'arrière-plan basée sur DiT avec injection de tokens masqués. Pour hériter des éléments dynamiques d'autres sources, un bloc de fusion DiT est proposé en utilisant une auto-attention complète, accompagné d'une augmentation simple mais efficace du premier plan pour l'entraînement. De plus, pour fusionner des vidéos d'arrière-plan et de premier plan avec des mises en page différentes basées sur le contrôle de l'utilisateur, nous avons développé un nouveau positionnement d'encodage, appelé Extended Rotary Position Embedding (ERoPE). Enfin, nous avons constitué un ensemble de données comprenant 61 000 ensembles de vidéos pour notre nouvelle tâche, appelée VideoComp. Ces données incluent des éléments dynamiques complets et des vidéos cibles de haute qualité. Les expériences démontrent que notre méthode réalise efficacement le compositing vidéo génératif, surpassant les solutions existantes possibles en termes de fidélité et de cohérence.
English
Video compositing combines live-action footage to create video production,
serving as a crucial technique in video creation and film production.
Traditional pipelines require intensive labor efforts and expert collaboration,
resulting in lengthy production cycles and high manpower costs. To address this
issue, we automate this process with generative models, called generative video
compositing. This new task strives to adaptively inject identity and motion
information of foreground video to the target video in an interactive manner,
allowing users to customize the size, motion trajectory, and other attributes
of the dynamic elements added in final video. Specifically, we designed a novel
Diffusion Transformer (DiT) pipeline based on its intrinsic properties. To
maintain consistency of the target video before and after editing, we revised a
light-weight DiT-based background preservation branch with masked token
injection. As to inherit dynamic elements from other sources, a DiT fusion
block is proposed using full self-attention, along with a simple yet effective
foreground augmentation for training. Besides, for fusing background and
foreground videos with different layouts based on user control, we developed a
novel position embedding, named Extended Rotary Position Embedding (ERoPE).
Finally, we curated a dataset comprising 61K sets of videos for our new task,
called VideoComp. This data includes complete dynamic elements and high-quality
target videos. Experiments demonstrate that our method effectively realizes
generative video compositing, outperforming existing possible solutions in
fidelity and consistency.