Ингредиенты: Смешивание индивидуальных фотографий с видео трансформерами диффузии.
Ingredients: Blending Custom Photos with Video Diffusion Transformers
January 3, 2025
Авторы: Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan
cs.AI
Аннотация
Данный доклад представляет мощную структуру для настройки создания видео путем интеграции нескольких конкретных фотографий идентификации (ID) с видео-трансформерами, называемыми Ингредиентами. В общем, наш метод состоит из трех основных модулей: (i) экстрактора лица, который захватывает универсальные и точные черты лица для каждого человеческого ID с глобальной и локальной перспективы; (ii) многомасштабного проектора, который отображает вложения лица в контекстное пространство запроса изображения в видео-трансформерах; (iii) маршрутизатора ID, который динамически объединяет и распределяет несколько вложений ID в соответствующие пространственно-временные области. Используя тщательно подготовленный набор данных текста-видео и многоступенчатый протокол обучения, Ингредиенты демонстрируют превосходную производительность в превращении пользовательских фотографий в динамичное и персонализированное видео-содержимое. Качественные оценки подчеркивают преимущества предложенного метода, позиционируя его как значительное достижение в направлении более эффективных инструментов управления генеративным видео на основе архитектуры на основе трансформеров по сравнению с существующими методами. Данные, код и веса модели доступны публично по ссылке: https://github.com/feizc/Ingredients.
English
This paper presents a powerful framework to customize video creations by
incorporating multiple specific identity (ID) photos, with video diffusion
Transformers, referred to as Ingredients. Generally, our method
consists of three primary modules: (i) a facial extractor that
captures versatile and precise facial features for each human ID from both
global and local perspectives; (ii) a multi-scale projector that maps
face embeddings into the contextual space of image query in video diffusion
transformers; (iii) an ID router that dynamically combines and
allocates multiple ID embedding to the corresponding space-time regions.
Leveraging a meticulously curated text-video dataset and a multi-stage training
protocol, Ingredients demonstrates superior performance in turning
custom photos into dynamic and personalized video content. Qualitative
evaluations highlight the advantages of proposed method, positioning it as a
significant advancement toward more effective generative video control tools in
Transformer-based architecture, compared to existing methods. The data, code,
and model weights are publicly available at:
https://github.com/feizc/Ingredients.Summary
AI-Generated Summary