ConceptMaster: Многоконцептная настройка видео на моделях трансформера Diffusion без настройки во время тестирования.
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
January 8, 2025
Авторы: Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai
cs.AI
Аннотация
Генерация видео по тексту достигла значительных успехов благодаря моделям диффузии. Однако многоконцептная настройка видео (MCVC) остается значительным вызовом. Мы выделяем две ключевые проблемы в этой задаче: 1) проблему разделения идентичности, при которой прямое применение существующих методов настройки неизбежно приводит к смешиванию атрибутов при одновременной обработке нескольких концепций, и 2) дефицит высококачественных пар видео-сущность, что критично для обучения модели, хорошо представляющей и разделяющей различные концепции. Для решения этих проблем мы представляем ConceptMaster, инновационную структуру, которая эффективно решает критические проблемы разделения идентичности, сохраняя при этом верность концепции в настраиваемых видео. Конкретно, мы предлагаем новую стратегию обучения разделенных многоконцептных вложений, которые инъектируются в модели диффузии самостоятельно, что эффективно гарантирует качество настраиваемых видео с несколькими идентичностями, даже для высоко похожих визуальных концепций. Для преодоления дефицита высококачественных данных MCVC мы тщательно создаем конвейер построения данных, который обеспечивает систематический сбор точных многоконцептных видео-сущностных данных по разнообразным концепциям. Создан обширный бенчмарк для проверки эффективности нашей модели с трех критических измерений: верность концепции, способность разделения идентичности и качество генерации видео в шести различных сценариях композиции концепций. Обширные эксперименты показывают, что наш ConceptMaster значительно превосходит предыдущие подходы к этой задаче, открывая путь к созданию персонализированных и семантически точных видео по нескольким концепциям.
English
Text-to-video generation has made remarkable advancements through diffusion
models. However, Multi-Concept Video Customization (MCVC) remains a significant
challenge. We identify two key challenges in this task: 1) the identity
decoupling problem, where directly adopting existing customization methods
inevitably mix attributes when handling multiple concepts simultaneously, and
2) the scarcity of high-quality video-entity pairs, which is crucial for
training such a model that represents and decouples various concepts well. To
address these challenges, we introduce ConceptMaster, an innovative framework
that effectively tackles the critical issues of identity decoupling while
maintaining concept fidelity in customized videos. Specifically, we introduce a
novel strategy of learning decoupled multi-concept embeddings that are injected
into the diffusion models in a standalone manner, which effectively guarantees
the quality of customized videos with multiple identities, even for highly
similar visual concepts. To further overcome the scarcity of high-quality MCVC
data, we carefully establish a data construction pipeline, which enables
systematic collection of precise multi-concept video-entity data across diverse
concepts. A comprehensive benchmark is designed to validate the effectiveness
of our model from three critical dimensions: concept fidelity, identity
decoupling ability, and video generation quality across six different concept
composition scenarios. Extensive experiments demonstrate that our ConceptMaster
significantly outperforms previous approaches for this task, paving the way for
generating personalized and semantically accurate videos across multiple
concepts.Summary
AI-Generated Summary