ChatPaper.aiChatPaper

CustomCrafter: Пользовательская генерация видео с сохранением возможностей движения и композиции концепций

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

August 23, 2024
Авторы: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li
cs.AI

Аннотация

Генерация индивидуализированных видео направлена на создание видеороликов высокого качества под руководством текстовых подсказок и изображений субъекта. Однако, поскольку модель обучена только на статических изображениях, процесс настройки обучения субъекта нарушает способности моделей диффузии видео (VDM) комбинировать концепции и генерировать движения. Для восстановления этих способностей некоторые методы используют дополнительное видео, аналогичное подсказке, для настройки или руководства моделью. Это требует частых изменений руководящих видеороликов и даже повторной настройки модели при генерации различных движений, что является очень неудобным для пользователей. В данной статье мы предлагаем CustomCrafter, новую структуру, которая сохраняет способность модели к генерации движений и комбинированию концепций без использования дополнительного видео и повторной настройки для восстановления. Для сохранения способности к комбинированию концепций мы разрабатываем модуль "подключи и используй" для обновления небольшого количества параметров в VDM, улучшая способность модели улавливать детали внешности и способность комбинирования концепций для новых субъектов. Для генерации движений мы заметили, что VDM склонны восстанавливать движение видео на ранней стадии удаления шумов, сосредотачиваясь на восстановлении деталей субъекта на более поздней стадии. Поэтому мы предлагаем динамическую стратегию взвешенной выборки видео. Используя возможность подключения наших модулей обучения субъектов, мы уменьшаем влияние этого модуля на генерацию движения на ранней стадии удаления шумов, сохраняя способность генерации движения VDM. На более поздней стадии удаления шумов мы восстанавливаем этот модуль для восстановления деталей внешности указанного субъекта, тем самым обеспечивая достоверность внешности субъекта. Экспериментальные результаты показывают, что наш метод имеет значительное улучшение по сравнению с предыдущими методами.
English
Customized video generation aims to generate high-quality videos guided by text prompts and subject's reference images. However, since it is only trained on static images, the fine-tuning process of subject learning disrupts abilities of video diffusion models (VDMs) to combine concepts and generate motions. To restore these abilities, some methods use additional video similar to the prompt to fine-tune or guide the model. This requires frequent changes of guiding videos and even re-tuning of the model when generating different motions, which is very inconvenient for users. In this paper, we propose CustomCrafter, a novel framework that preserves the model's motion generation and conceptual combination abilities without additional video and fine-tuning to recovery. For preserving conceptual combination ability, we design a plug-and-play module to update few parameters in VDMs, enhancing the model's ability to capture the appearance details and the ability of concept combinations for new subjects. For motion generation, we observed that VDMs tend to restore the motion of video in the early stage of denoising, while focusing on the recovery of subject details in the later stage. Therefore, we propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our subject learning modules, we reduce the impact of this module on motion generation in the early stage of denoising, preserving the ability to generate motion of VDMs. In the later stage of denoising, we restore this module to repair the appearance details of the specified subject, thereby ensuring the fidelity of the subject's appearance. Experimental results show that our method has a significant improvement compared to previous methods.

Summary

AI-Generated Summary

PDF122November 16, 2024