Generador de Videos: Generación de Videos Personalizados sin Entrenamiento con la Fuerza Intrínseca de los Modelos de Difusión de Video
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
December 27, 2024
Autores: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI
Resumen
La generación de video personalizado sin entrenamiento previo ha ganado una atención significativa debido a su gran potencial de aplicación. Los métodos existentes dependen de modelos adicionales para extraer e inyectar características de referencia del sujeto, asumiendo que el Modelo de Difusión de Video (VDM, por sus siglas en inglés) por sí solo es insuficiente para la generación de video personalizado sin entrenamiento previo. Sin embargo, estos métodos a menudo tienen dificultades para mantener una apariencia de sujeto consistente debido a técnicas subóptimas de extracción e inyección de características. En este documento, revelamos que el VDM posee inherentemente la capacidad de extraer e inyectar características del sujeto. Alejándonos de enfoques heurísticos anteriores, introducimos un nuevo marco que aprovecha la capacidad inherente del VDM para permitir una generación de video personalizado sin entrenamiento previo de alta calidad. Específicamente, para la extracción de características, introducimos directamente imágenes de referencia en el VDM y utilizamos su proceso intrínseco de extracción de características, que no solo proporciona características detalladas, sino que también se alinea significativamente con el conocimiento pre-entrenado del VDM. Para la inyección de características, diseñamos una interacción bidireccional innovadora entre las características del sujeto y el contenido generado a través de la autoatención espacial dentro del VDM, asegurando que el VDM tenga una mejor fidelidad al sujeto al mismo tiempo que mantiene la diversidad del video generado. Experimentos tanto en la generación de video personalizado de humanos como de objetos validan la efectividad de nuestro marco.
English
Zero-shot customized video generation has gained significant attention due to
its substantial application potential. Existing methods rely on additional
models to extract and inject reference subject features, assuming that the
Video Diffusion Model (VDM) alone is insufficient for zero-shot customized
video generation. However, these methods often struggle to maintain consistent
subject appearance due to suboptimal feature extraction and injection
techniques. In this paper, we reveal that VDM inherently possesses the force to
extract and inject subject features. Departing from previous heuristic
approaches, we introduce a novel framework that leverages VDM's inherent force
to enable high-quality zero-shot customized video generation. Specifically, for
feature extraction, we directly input reference images into VDM and use its
intrinsic feature extraction process, which not only provides fine-grained
features but also significantly aligns with VDM's pre-trained knowledge. For
feature injection, we devise an innovative bidirectional interaction between
subject features and generated content through spatial self-attention within
VDM, ensuring that VDM has better subject fidelity while maintaining the
diversity of the generated video.Experiments on both customized human and
object video generation validate the effectiveness of our framework.Summary
AI-Generated Summary