ChatPaper.aiChatPaper

VideoMaker: Создание персонализированных видеороликов с нулевым обучением на основе встроенной силы моделей диффузии видео.

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

December 27, 2024
Авторы: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li
cs.AI

Аннотация

Персонализированная генерация видео с нулевой настройкой привлекла значительное внимание благодаря своему значительному потенциалу применения. Существующие методы полагаются на дополнительные модели для извлечения и внедрения характеристик ссылочного объекта, предполагая, что модель диффузии видео (Video Diffusion Model, VDM) сама по себе недостаточна для персонализированной генерации видео с нулевой настройкой. Однако эти методы часто испытывают затруднения в поддержании последовательного внешнего вида объекта из-за неоптимальных техник извлечения и внедрения характеристик. В данной статье мы показываем, что VDM по своей природе обладает способностью извлекать и внедрять характеристики объекта. Отходя от предыдущих эвристических подходов, мы представляем новую структуру, которая использует врожденную способность VDM для обеспечения высококачественной персонализированной генерации видео с нулевой настройкой. Конкретно, для извлечения характеристик мы напрямую вводим ссылочные изображения в VDM и используем его внутренний процесс извлечения характеристик, который не только обеспечивает мелкозернистые характеристики, но также значительно соответствует предварительным знаниям VDM. Для внедрения характеристик мы разрабатываем инновационное двустороннее взаимодействие между характеристиками объекта и созданным контентом через пространственное самовнимание в VDM, обеспечивая, что VDM имеет лучшую верность объекта, сохраняя при этом разнообразие созданного видео. Эксперименты как на персонализированной генерации видео с человеком, так и с объектом подтверждают эффективность нашей структуры.
English
Zero-shot customized video generation has gained significant attention due to its substantial application potential. Existing methods rely on additional models to extract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero-shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection techniques. In this paper, we reveal that VDM inherently possesses the force to extract and inject subject features. Departing from previous heuristic approaches, we introduce a novel framework that leverages VDM's inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input reference images into VDM and use its intrinsic feature extraction process, which not only provides fine-grained features but also significantly aligns with VDM's pre-trained knowledge. For feature injection, we devise an innovative bidirectional interaction between subject features and generated content through spatial self-attention within VDM, ensuring that VDM has better subject fidelity while maintaining the diversity of the generated video.Experiments on both customized human and object video generation validate the effectiveness of our framework.
PDF132December 30, 2024