ChatPaper.aiChatPaper

GenCompositor: Generatives Videocompositing mit Diffusions-Transformer

GenCompositor: Generative Video Compositing with Diffusion Transformer

September 2, 2025
papers.authors: Shuzhou Yang, Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang
cs.AI

papers.abstract

Video Compositing kombiniert Live-Action-Aufnahmen, um Videoproduktionen zu erstellen, und stellt eine entscheidende Technik in der Videoproduktion und Filmherstellung dar. Traditionelle Workflows erfordern einen hohen Arbeitsaufwand und die Zusammenarbeit von Experten, was zu langen Produktionszyklen und hohen Personalkosten führt. Um dieses Problem zu lösen, automatisieren wir diesen Prozess mit generativen Modellen, was als generatives Video Compositing bezeichnet wird. Diese neue Aufgabe zielt darauf ab, Identitäts- und Bewegungsinformationen von Vordergrundvideos auf adaptive Weise in ein Zielvideo zu integrieren, sodass Benutzer die Größe, Bewegungsbahn und andere Attribute der dynamischen Elemente im finalen Video anpassen können. Konkret haben wir eine neuartige Diffusion Transformer (DiT)-Pipeline basierend auf dessen intrinsischen Eigenschaften entwickelt. Um die Konsistenz des Zielvideos vor und nach der Bearbeitung zu gewährleisten, haben wir einen leichtgewichtigen DiT-basierten Hintergrundbewahrungszweig mit maskierter Token-Injektion überarbeitet. Um dynamische Elemente aus anderen Quellen zu übernehmen, wurde ein DiT-Fusionsblock mit vollständiger Selbstaufmerksamkeit vorgeschlagen, zusammen mit einer einfachen, aber effektiven Vordergrundaugmentierung für das Training. Zudem haben wir für die Fusion von Hintergrund- und Vordergrundvideos mit unterschiedlichen Layouts basierend auf Benutzersteuerung eine neuartige Positionseinbettung entwickelt, die als Extended Rotary Position Embedding (ERoPE) bezeichnet wird. Schließlich haben wir einen Datensatz mit 61.000 Videosets für unsere neue Aufgabe, VideoComp, kuratiert. Dieser Datensatz umfasst vollständige dynamische Elemente und hochwertige Zielvideos. Experimente zeigen, dass unsere Methode das generative Video Compositing effektiv realisiert und bestehende Lösungen in Bezug auf Qualität und Konsistenz übertrifft.
English
Video compositing combines live-action footage to create video production, serving as a crucial technique in video creation and film production. Traditional pipelines require intensive labor efforts and expert collaboration, resulting in lengthy production cycles and high manpower costs. To address this issue, we automate this process with generative models, called generative video compositing. This new task strives to adaptively inject identity and motion information of foreground video to the target video in an interactive manner, allowing users to customize the size, motion trajectory, and other attributes of the dynamic elements added in final video. Specifically, we designed a novel Diffusion Transformer (DiT) pipeline based on its intrinsic properties. To maintain consistency of the target video before and after editing, we revised a light-weight DiT-based background preservation branch with masked token injection. As to inherit dynamic elements from other sources, a DiT fusion block is proposed using full self-attention, along with a simple yet effective foreground augmentation for training. Besides, for fusing background and foreground videos with different layouts based on user control, we developed a novel position embedding, named Extended Rotary Position Embedding (ERoPE). Finally, we curated a dataset comprising 61K sets of videos for our new task, called VideoComp. This data includes complete dynamic elements and high-quality target videos. Experiments demonstrate that our method effectively realizes generative video compositing, outperforming existing possible solutions in fidelity and consistency.
PDF204September 3, 2025