CustomVideoX: Adaptação Dinâmica Impulsionada por Atenção de Referência 3D para Transformadores de Difusão de Vídeo Personalizados Sem Necessidade de Treinamento
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers
February 10, 2025
Autores: D. She, Mushui Liu, Jingxuan Pang, Jin Wang, Zhen Yang, Wanggui He, Guanghao Zhang, Yi Wang, Qihan Huang, Haobin Tang, Yunlong Yu, Siming Fu
cs.AI
Resumo
A geração personalizada alcançou progressos significativos na síntese de imagens, no entanto, a geração de vídeos personalizados ainda é desafiadora devido a inconsistências temporais e degradação de qualidade. Neste artigo, apresentamos o CustomVideoX, um framework inovador que utiliza o transformador de difusão de vídeo para a geração de vídeos personalizados a partir de uma imagem de referência. O CustomVideoX se baseia em redes de vídeo pré-treinadas, treinando exclusivamente os parâmetros LoRA para extrair características de referência, garantindo eficiência e adaptabilidade. Para facilitar a interação contínua entre a imagem de referência e o conteúdo de vídeo, propomos a Atenção de Referência 3D, que permite o envolvimento direto e simultâneo das características da imagem de referência com todos os quadros de vídeo em dimensões espaciais e temporais. Para mitigar a influência excessiva das características da imagem de referência e orientação textual no conteúdo de vídeo gerado durante a inferência, implementamos a estratégia de Viés de Atenção de Referência Consciente do Tempo (TAB), modulando dinamicamente o viés de referência em diferentes etapas temporais. Além disso, introduzimos o módulo de Aprimoramento Consciente da Região da Entidade (ERAE), alinhando regiões altamente ativadas de tokens de entidades-chave com a injeção de características de referência ajustando o viés de atenção. Para avaliar minuciosamente a geração de vídeos personalizados, estabelecemos um novo benchmark, VideoBench, composto por mais de 50 objetos e 100 sugestões para uma avaliação extensiva. Os resultados experimentais mostram que o CustomVideoX supera significativamente os métodos existentes em termos de consistência e qualidade de vídeo.
English
Customized generation has achieved significant progress in image synthesis,
yet personalized video generation remains challenging due to temporal
inconsistencies and quality degradation. In this paper, we introduce
CustomVideoX, an innovative framework leveraging the video diffusion
transformer for personalized video generation from a reference image.
CustomVideoX capitalizes on pre-trained video networks by exclusively training
the LoRA parameters to extract reference features, ensuring both efficiency and
adaptability. To facilitate seamless interaction between the reference image
and video content, we propose 3D Reference Attention, which enables direct and
simultaneous engagement of reference image features with all video frames
across spatial and temporal dimensions. To mitigate the excessive influence of
reference image features and textual guidance on generated video content during
inference, we implement the Time-Aware Reference Attention Bias (TAB) strategy,
dynamically modulating reference bias over different time steps. Additionally,
we introduce the Entity Region-Aware Enhancement (ERAE) module, aligning highly
activated regions of key entity tokens with reference feature injection by
adjusting attention bias. To thoroughly evaluate personalized video generation,
we establish a new benchmark, VideoBench, comprising over 50 objects and 100
prompts for extensive assessment. Experimental results show that CustomVideoX
significantly outperforms existing methods in terms of video consistency and
quality.