ChatPaper.aiChatPaper

Generador de Videos: Generación de Videos Personalizados sin Entrenamiento con la Fuerza Intrínseca de los Modelos de Difusión de Video

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

December 27, 2024
Autores: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI

Resumen

La generación de video personalizado sin entrenamiento previo ha ganado una atención significativa debido a su gran potencial de aplicación. Los métodos existentes dependen de modelos adicionales para extraer e inyectar características de referencia del sujeto, asumiendo que el Modelo de Difusión de Video (VDM, por sus siglas en inglés) por sí solo es insuficiente para la generación de video personalizado sin entrenamiento previo. Sin embargo, estos métodos a menudo tienen dificultades para mantener una apariencia de sujeto consistente debido a técnicas subóptimas de extracción e inyección de características. En este documento, revelamos que el VDM posee inherentemente la capacidad de extraer e inyectar características del sujeto. Alejándonos de enfoques heurísticos anteriores, introducimos un nuevo marco que aprovecha la capacidad inherente del VDM para permitir una generación de video personalizado sin entrenamiento previo de alta calidad. Específicamente, para la extracción de características, introducimos directamente imágenes de referencia en el VDM y utilizamos su proceso intrínseco de extracción de características, que no solo proporciona características detalladas, sino que también se alinea significativamente con el conocimiento pre-entrenado del VDM. Para la inyección de características, diseñamos una interacción bidireccional innovadora entre las características del sujeto y el contenido generado a través de la autoatención espacial dentro del VDM, asegurando que el VDM tenga una mejor fidelidad al sujeto al mismo tiempo que mantiene la diversidad del video generado. Experimentos tanto en la generación de video personalizado de humanos como de objetos validan la efectividad de nuestro marco.
English
Zero-shot customized video generation has gained significant attention due to its substantial application potential. Existing methods rely on additional models to extract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero-shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection techniques. In this paper, we reveal that VDM inherently possesses the force to extract and inject subject features. Departing from previous heuristic approaches, we introduce a novel framework that leverages VDM's inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input reference images into VDM and use its intrinsic feature extraction process, which not only provides fine-grained features but also significantly aligns with VDM's pre-trained knowledge. For feature injection, we devise an innovative bidirectional interaction between subject features and generated content through spatial self-attention within VDM, ensuring that VDM has better subject fidelity while maintaining the diversity of the generated video.Experiments on both customized human and object video generation validate the effectiveness of our framework.

Summary

AI-Generated Summary

PDF132December 30, 2024