VideoMaker: Создание персонализированных видеороликов с нулевым обучением на основе встроенной силы моделей диффузии видео.
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
December 27, 2024
Авторы: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI
Аннотация
Персонализированная генерация видео с нулевой настройкой привлекла значительное внимание благодаря своему значительному потенциалу применения. Существующие методы полагаются на дополнительные модели для извлечения и внедрения характеристик ссылочного объекта, предполагая, что модель диффузии видео (Video Diffusion Model, VDM) сама по себе недостаточна для персонализированной генерации видео с нулевой настройкой. Однако эти методы часто испытывают затруднения в поддержании последовательного внешнего вида объекта из-за неоптимальных техник извлечения и внедрения характеристик. В данной статье мы показываем, что VDM по своей природе обладает способностью извлекать и внедрять характеристики объекта. Отходя от предыдущих эвристических подходов, мы представляем новую структуру, которая использует врожденную способность VDM для обеспечения высококачественной персонализированной генерации видео с нулевой настройкой. Конкретно, для извлечения характеристик мы напрямую вводим ссылочные изображения в VDM и используем его внутренний процесс извлечения характеристик, который не только обеспечивает мелкозернистые характеристики, но также значительно соответствует предварительным знаниям VDM. Для внедрения характеристик мы разрабатываем инновационное двустороннее взаимодействие между характеристиками объекта и созданным контентом через пространственное самовнимание в VDM, обеспечивая, что VDM имеет лучшую верность объекта, сохраняя при этом разнообразие созданного видео. Эксперименты как на персонализированной генерации видео с человеком, так и с объектом подтверждают эффективность нашей структуры.
English
Zero-shot customized video generation has gained significant attention due to
its substantial application potential. Existing methods rely on additional
models to extract and inject reference subject features, assuming that the
Video Diffusion Model (VDM) alone is insufficient for zero-shot customized
video generation. However, these methods often struggle to maintain consistent
subject appearance due to suboptimal feature extraction and injection
techniques. In this paper, we reveal that VDM inherently possesses the force to
extract and inject subject features. Departing from previous heuristic
approaches, we introduce a novel framework that leverages VDM's inherent force
to enable high-quality zero-shot customized video generation. Specifically, for
feature extraction, we directly input reference images into VDM and use its
intrinsic feature extraction process, which not only provides fine-grained
features but also significantly aligns with VDM's pre-trained knowledge. For
feature injection, we devise an innovative bidirectional interaction between
subject features and generated content through spatial self-attention within
VDM, ensuring that VDM has better subject fidelity while maintaining the
diversity of the generated video.Experiments on both customized human and
object video generation validate the effectiveness of our framework.