ConceptMaster: Multi-Concept Video Aanpassing op Diffusion Transformer Modellen Zonder Aanpassing op Testtijd

Samenvatting

Tekst-naar-video generatie heeft opmerkelijke vooruitgang geboekt door diffusiemodellen. Echter, Multi-Concept Video Aanpassing (MCVC) blijft een significante uitdaging. We identificeren twee belangrijke uitdagingen in deze taak: 1) het identiteitsontkoppelingsprobleem, waarbij het direct overnemen van bestaande aanpassingsmethoden onvermijdelijk attributen vermengt bij het gelijktijdig behandelen van meerdere concepten, en 2) de schaarste aan video-entiteitparen van hoge kwaliteit, wat cruciaal is voor het trainen van een dergelijk model dat verschillende concepten goed vertegenwoordigt en ontkoppelt. Om deze uitdagingen aan te pakken, introduceren we ConceptMaster, een innovatief raamwerk dat effectief de kritieke kwesties van identiteitsontkoppeling aanpakt terwijl het conceptgetrouwheid behoudt in aangepaste video's. Specifiek introduceren we een nieuwe strategie van het leren van ontkoppelde multi-concept insluitingen die op zichzelf in de diffusiemodellen worden geïnjecteerd, wat effectief de kwaliteit van aangepaste video's met meerdere identiteiten garandeert, zelfs voor zeer vergelijkbare visuele concepten. Om verder de schaarste aan hoogwaardige MCVC-gegevens te overwinnen, stellen we zorgvuldig een gegevensconstructiepijplijn op, die systematische verzameling van nauwkeurige multi-concept video-entiteitgegevens over diverse concepten mogelijk maakt. Een uitgebreide benchmark is ontworpen om de effectiviteit van ons model te valideren vanuit drie kritieke dimensies: conceptgetrouwheid, identiteitsontkoppelingsvermogen en videogeneratiekwaliteit over zes verschillende conceptcompositie scenario's. Uitgebreide experimenten tonen aan dat onze ConceptMaster aanzienlijk beter presteert dan eerdere benaderingen voor deze taak, waardoor de weg wordt vrijgemaakt voor het genereren van gepersonaliseerde en semantisch nauwkeurige video's over meerdere concepten.

English

Text-to-video generation has made remarkable advancements through diffusion models. However, Multi-Concept Video Customization (MCVC) remains a significant challenge. We identify two key challenges in this task: 1) the identity decoupling problem, where directly adopting existing customization methods inevitably mix attributes when handling multiple concepts simultaneously, and 2) the scarcity of high-quality video-entity pairs, which is crucial for training such a model that represents and decouples various concepts well. To address these challenges, we introduce ConceptMaster, an innovative framework that effectively tackles the critical issues of identity decoupling while maintaining concept fidelity in customized videos. Specifically, we introduce a novel strategy of learning decoupled multi-concept embeddings that are injected into the diffusion models in a standalone manner, which effectively guarantees the quality of customized videos with multiple identities, even for highly similar visual concepts. To further overcome the scarcity of high-quality MCVC data, we carefully establish a data construction pipeline, which enables systematic collection of precise multi-concept video-entity data across diverse concepts. A comprehensive benchmark is designed to validate the effectiveness of our model from three critical dimensions: concept fidelity, identity decoupling ability, and video generation quality across six different concept composition scenarios. Extensive experiments demonstrate that our ConceptMaster significantly outperforms previous approaches for this task, paving the way for generating personalized and semantically accurate videos across multiple concepts.

ConceptMaster: Multi-Concept Video Aanpassing op Diffusion Transformer Modellen Zonder Aanpassing op Testtijd

ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Samenvatting

Support