Magic-Me: Персонализированная генерация видео с использованием диффузионных моделей для конкретных идентичностей

Аннотация

Создание контента для конкретной идентичности (ID) вызывает значительный интерес в области генеративных моделей. В области генерации изображений из текста (T2I) достигнут значительный прогресс в создании контента, управляемого объектом, с возможностью контроля ID на изображениях. Однако расширение этого подхода на генерацию видео изучено недостаточно. В данной работе мы предлагаем простую, но эффективную структуру для генерации видео с управляемой идентичностью объекта, названную Video Custom Diffusion (VCD). С заданной идентичностью объекта, определенной несколькими изображениями, VCD усиливает извлечение информации об идентичности и внедряет корреляцию между кадрами на этапе инициализации для стабильного вывода видео с сохранением идентичности в значительной степени. Для достижения этого мы предлагаем три новых компонента, которые необходимы для высококачественного сохранения ID: 1) модуль ID, обученный на обрезанной идентичности с помощью преобразования запроса в сегментацию, чтобы разделить информацию об ID и фоновый шум для более точного обучения токенов ID; 2) модуль текста в видео (T2V) VCD с 3D гауссовским шумовым приоритетом для улучшения согласованности между кадрами; и 3) модули видео в видео (V2V) Face VCD и Tiled VCD для устранения размытия лица и повышения разрешения видео. Несмотря на свою простоту, мы провели обширные эксперименты, чтобы подтвердить, что VCD способен генерировать стабильные и высококачественные видео с лучшим сохранением ID по сравнению с выбранными сильными базовыми методами. Кроме того, благодаря переносимости модуля ID, VCD также хорошо работает с доступными публично дообученными моделями генерации изображений из текста, что еще больше повышает его применимость. Код доступен по адресу https://github.com/Zhen-Dong/Magic-Me.

English

Creating content for a specific identity (ID) has shown significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven content generation has achieved great progress with the ID in the images controllable. However, extending it to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified subject ID defined by a few images, VCD reinforces the identity information extraction and injects frame-wise correlation at the initialization stage for stable video outputs with identity preserved to a large extent. To achieve this, we propose three novel components that are essential for high-quality ID preservation: 1) an ID module trained with the cropped identity by prompt-to-segmentation to disentangle the ID information and the background noise for more accurate ID token learning; 2) a text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD modules to deblur the face and upscale the video for higher resolution. Despite its simplicity, we conducted extensive experiments to verify that VCD is able to generate stable and high-quality videos with better ID over the selected strong baselines. Besides, due to the transferability of the ID module, VCD is also working well with finetuned text-to-image models available publically, further improving its usability. The codes are available at https://github.com/Zhen-Dong/Magic-Me.

Magic-Me: Персонализированная генерация видео с использованием диффузионных моделей для конкретных идентичностей

Magic-Me: Identity-Specific Video Customized Diffusion

Аннотация

Support