Ingrediënten: Het combineren van aangepaste foto's met videodiffusietransformatoren.
Ingredients: Blending Custom Photos with Video Diffusion Transformers
January 3, 2025
Auteurs: Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan
cs.AI
Samenvatting
Deze paper presenteert een krachtig framework om video-creatie aan te passen door meerdere specifieke identiteits (ID) foto's op te nemen, met behulp van video-diffusie Transformers, aangeduid als Ingrediënten. Over het algemeen bestaat onze methode uit drie primaire modules: (i) een gezichtsextractor die veelzijdige en nauwkeurige gezichtskenmerken vastlegt voor elke menselijke ID van zowel globale als lokale perspectieven; (ii) een multi-schaal projector die gezichtsembeddings in de contextuele ruimte van het beeldquery in video-diffusie transformers in kaart brengt; (iii) een ID-router die dynamisch meerdere ID-embeddings combineert en toewijst aan de overeenkomstige ruimte-tijd regio's. Door gebruik te maken van een zorgvuldig samengestelde tekst-video dataset en een multi-stage trainingsprotocol, toont Ingrediënten superieure prestaties bij het omzetten van aangepaste foto's in dynamische en gepersonaliseerde video-inhoud. Kwalitatieve evaluaties benadrukken de voordelen van de voorgestelde methode, waarbij deze wordt gepositioneerd als een significante vooruitgang naar meer effectieve generatieve video-controletools in een op Transformer gebaseerde architectuur, in vergelijking met bestaande methoden. De data, code en modelgewichten zijn publiekelijk beschikbaar op: https://github.com/feizc/Ingredients.
English
This paper presents a powerful framework to customize video creations by
incorporating multiple specific identity (ID) photos, with video diffusion
Transformers, referred to as Ingredients. Generally, our method
consists of three primary modules: (i) a facial extractor that
captures versatile and precise facial features for each human ID from both
global and local perspectives; (ii) a multi-scale projector that maps
face embeddings into the contextual space of image query in video diffusion
transformers; (iii) an ID router that dynamically combines and
allocates multiple ID embedding to the corresponding space-time regions.
Leveraging a meticulously curated text-video dataset and a multi-stage training
protocol, Ingredients demonstrates superior performance in turning
custom photos into dynamic and personalized video content. Qualitative
evaluations highlight the advantages of proposed method, positioning it as a
significant advancement toward more effective generative video control tools in
Transformer-based architecture, compared to existing methods. The data, code,
and model weights are publicly available at:
https://github.com/feizc/Ingredients.Summary
AI-Generated Summary