Magic-Me: Персонализированная генерация видео с использованием диффузионных моделей для конкретных идентичностейMagic-Me: Identity-Specific Video Customized Diffusion
Создание контента для конкретной идентичности (ID) вызывает значительный интерес в области генеративных моделей. В области генерации изображений из текста (T2I) достигнут значительный прогресс в создании контента, управляемого объектом, с возможностью контроля ID на изображениях. Однако расширение этого подхода на генерацию видео изучено недостаточно. В данной работе мы предлагаем простую, но эффективную структуру для генерации видео с управляемой идентичностью объекта, названную Video Custom Diffusion (VCD). С заданной идентичностью объекта, определенной несколькими изображениями, VCD усиливает извлечение информации об идентичности и внедряет корреляцию между кадрами на этапе инициализации для стабильного вывода видео с сохранением идентичности в значительной степени. Для достижения этого мы предлагаем три новых компонента, которые необходимы для высококачественного сохранения ID: 1) модуль ID, обученный на обрезанной идентичности с помощью преобразования запроса в сегментацию, чтобы разделить информацию об ID и фоновый шум для более точного обучения токенов ID; 2) модуль текста в видео (T2V) VCD с 3D гауссовским шумовым приоритетом для улучшения согласованности между кадрами; и 3) модули видео в видео (V2V) Face VCD и Tiled VCD для устранения размытия лица и повышения разрешения видео. Несмотря на свою простоту, мы провели обширные эксперименты, чтобы подтвердить, что VCD способен генерировать стабильные и высококачественные видео с лучшим сохранением ID по сравнению с выбранными сильными базовыми методами. Кроме того, благодаря переносимости модуля ID, VCD также хорошо работает с доступными публично дообученными моделями генерации изображений из текста, что еще больше повышает его применимость. Код доступен по адресу https://github.com/Zhen-Dong/Magic-Me.