ChatPaper.aiChatPaper

CustomVideoX: Adaptação Dinâmica Impulsionada por Atenção de Referência 3D para Transformadores de Difusão de Vídeo Personalizados Sem Necessidade de Treinamento

CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers

February 10, 2025
Autores: D. She, Mushui Liu, Jingxuan Pang, Jin Wang, Zhen Yang, Wanggui He, Guanghao Zhang, Yi Wang, Qihan Huang, Haobin Tang, Yunlong Yu, Siming Fu
cs.AI

Resumo

A geração personalizada alcançou progressos significativos na síntese de imagens, no entanto, a geração de vídeos personalizados ainda é desafiadora devido a inconsistências temporais e degradação de qualidade. Neste artigo, apresentamos o CustomVideoX, um framework inovador que utiliza o transformador de difusão de vídeo para a geração de vídeos personalizados a partir de uma imagem de referência. O CustomVideoX se baseia em redes de vídeo pré-treinadas, treinando exclusivamente os parâmetros LoRA para extrair características de referência, garantindo eficiência e adaptabilidade. Para facilitar a interação contínua entre a imagem de referência e o conteúdo de vídeo, propomos a Atenção de Referência 3D, que permite o envolvimento direto e simultâneo das características da imagem de referência com todos os quadros de vídeo em dimensões espaciais e temporais. Para mitigar a influência excessiva das características da imagem de referência e orientação textual no conteúdo de vídeo gerado durante a inferência, implementamos a estratégia de Viés de Atenção de Referência Consciente do Tempo (TAB), modulando dinamicamente o viés de referência em diferentes etapas temporais. Além disso, introduzimos o módulo de Aprimoramento Consciente da Região da Entidade (ERAE), alinhando regiões altamente ativadas de tokens de entidades-chave com a injeção de características de referência ajustando o viés de atenção. Para avaliar minuciosamente a geração de vídeos personalizados, estabelecemos um novo benchmark, VideoBench, composto por mais de 50 objetos e 100 sugestões para uma avaliação extensiva. Os resultados experimentais mostram que o CustomVideoX supera significativamente os métodos existentes em termos de consistência e qualidade de vídeo.
English
Customized generation has achieved significant progress in image synthesis, yet personalized video generation remains challenging due to temporal inconsistencies and quality degradation. In this paper, we introduce CustomVideoX, an innovative framework leveraging the video diffusion transformer for personalized video generation from a reference image. CustomVideoX capitalizes on pre-trained video networks by exclusively training the LoRA parameters to extract reference features, ensuring both efficiency and adaptability. To facilitate seamless interaction between the reference image and video content, we propose 3D Reference Attention, which enables direct and simultaneous engagement of reference image features with all video frames across spatial and temporal dimensions. To mitigate the excessive influence of reference image features and textual guidance on generated video content during inference, we implement the Time-Aware Reference Attention Bias (TAB) strategy, dynamically modulating reference bias over different time steps. Additionally, we introduce the Entity Region-Aware Enhancement (ERAE) module, aligning highly activated regions of key entity tokens with reference feature injection by adjusting attention bias. To thoroughly evaluate personalized video generation, we establish a new benchmark, VideoBench, comprising over 50 objects and 100 prompts for extensive assessment. Experimental results show that CustomVideoX significantly outperforms existing methods in terms of video consistency and quality.
PDF112February 11, 2025