ChatPaper.aiChatPaper

GenCompositor: Composição de Vídeo Generativa com Transformador de Difusão

GenCompositor: Generative Video Compositing with Diffusion Transformer

September 2, 2025
Autores: Shuzhou Yang, Xiaoyu Li, Xiaodong Cun, Guangzhi Wang, Lingen Li, Ying Shan, Jian Zhang
cs.AI

Resumo

A composição de vídeo combina filmagens ao vivo para criar produções de vídeo, servindo como uma técnica crucial na criação de vídeos e produção cinematográfica. Os pipelines tradicionais exigem esforços intensivos de mão de obra e colaboração de especialistas, resultando em ciclos de produção longos e altos custos de mão de obra. Para resolver esse problema, automatizamos esse processo com modelos generativos, chamados de composição de vídeo generativa. Essa nova tarefa busca injetar de forma adaptativa informações de identidade e movimento de um vídeo em primeiro plano no vídeo alvo de maneira interativa, permitindo que os usuários personalizem o tamanho, a trajetória de movimento e outros atributos dos elementos dinâmicos adicionados no vídeo final. Especificamente, projetamos um novo pipeline de Transformador de Difusão (DiT) com base em suas propriedades intrínsecas. Para manter a consistência do vídeo alvo antes e depois da edição, revisamos um ramo leve de preservação de fundo baseado em DiT com injeção de tokens mascarados. Para herdar elementos dinâmicos de outras fontes, propomos um bloco de fusão DiT usando autoatenção completa, juntamente com uma ampliação simples, mas eficaz, de primeiro plano para treinamento. Além disso, para fundir vídeos de fundo e primeiro plano com layouts diferentes com base no controle do usuário, desenvolvemos uma nova incorporação de posição, chamada Incorporação de Posição Rotacional Estendida (ERoPE). Por fim, compilamos um conjunto de dados contendo 61 mil conjuntos de vídeos para nossa nova tarefa, chamada VideoComp. Esses dados incluem elementos dinâmicos completos e vídeos alvo de alta qualidade. Experimentos demonstram que nosso método realiza efetivamente a composição de vídeo generativa, superando as soluções existentes possíveis em fidelidade e consistência.
English
Video compositing combines live-action footage to create video production, serving as a crucial technique in video creation and film production. Traditional pipelines require intensive labor efforts and expert collaboration, resulting in lengthy production cycles and high manpower costs. To address this issue, we automate this process with generative models, called generative video compositing. This new task strives to adaptively inject identity and motion information of foreground video to the target video in an interactive manner, allowing users to customize the size, motion trajectory, and other attributes of the dynamic elements added in final video. Specifically, we designed a novel Diffusion Transformer (DiT) pipeline based on its intrinsic properties. To maintain consistency of the target video before and after editing, we revised a light-weight DiT-based background preservation branch with masked token injection. As to inherit dynamic elements from other sources, a DiT fusion block is proposed using full self-attention, along with a simple yet effective foreground augmentation for training. Besides, for fusing background and foreground videos with different layouts based on user control, we developed a novel position embedding, named Extended Rotary Position Embedding (ERoPE). Finally, we curated a dataset comprising 61K sets of videos for our new task, called VideoComp. This data includes complete dynamic elements and high-quality target videos. Experiments demonstrate that our method effectively realizes generative video compositing, outperforming existing possible solutions in fidelity and consistency.
PDF244September 3, 2025