ConceptMaster: Многоконцептная настройка видео на моделях трансформера Diffusion без настройки во время тестирования.

Аннотация

Генерация видео по тексту достигла значительных успехов благодаря моделям диффузии. Однако многоконцептная настройка видео (MCVC) остается значительным вызовом. Мы выделяем две ключевые проблемы в этой задаче: 1) проблему разделения идентичности, при которой прямое применение существующих методов настройки неизбежно приводит к смешиванию атрибутов при одновременной обработке нескольких концепций, и 2) дефицит высококачественных пар видео-сущность, что критично для обучения модели, хорошо представляющей и разделяющей различные концепции. Для решения этих проблем мы представляем ConceptMaster, инновационную структуру, которая эффективно решает критические проблемы разделения идентичности, сохраняя при этом верность концепции в настраиваемых видео. Конкретно, мы предлагаем новую стратегию обучения разделенных многоконцептных вложений, которые инъектируются в модели диффузии самостоятельно, что эффективно гарантирует качество настраиваемых видео с несколькими идентичностями, даже для высоко похожих визуальных концепций. Для преодоления дефицита высококачественных данных MCVC мы тщательно создаем конвейер построения данных, который обеспечивает систематический сбор точных многоконцептных видео-сущностных данных по разнообразным концепциям. Создан обширный бенчмарк для проверки эффективности нашей модели с трех критических измерений: верность концепции, способность разделения идентичности и качество генерации видео в шести различных сценариях композиции концепций. Обширные эксперименты показывают, что наш ConceptMaster значительно превосходит предыдущие подходы к этой задаче, открывая путь к созданию персонализированных и семантически точных видео по нескольким концепциям.

English

Text-to-video generation has made remarkable advancements through diffusion models. However, Multi-Concept Video Customization (MCVC) remains a significant challenge. We identify two key challenges in this task: 1) the identity decoupling problem, where directly adopting existing customization methods inevitably mix attributes when handling multiple concepts simultaneously, and 2) the scarcity of high-quality video-entity pairs, which is crucial for training such a model that represents and decouples various concepts well. To address these challenges, we introduce ConceptMaster, an innovative framework that effectively tackles the critical issues of identity decoupling while maintaining concept fidelity in customized videos. Specifically, we introduce a novel strategy of learning decoupled multi-concept embeddings that are injected into the diffusion models in a standalone manner, which effectively guarantees the quality of customized videos with multiple identities, even for highly similar visual concepts. To further overcome the scarcity of high-quality MCVC data, we carefully establish a data construction pipeline, which enables systematic collection of precise multi-concept video-entity data across diverse concepts. A comprehensive benchmark is designed to validate the effectiveness of our model from three critical dimensions: concept fidelity, identity decoupling ability, and video generation quality across six different concept composition scenarios. Extensive experiments demonstrate that our ConceptMaster significantly outperforms previous approaches for this task, paving the way for generating personalized and semantically accurate videos across multiple concepts.

ConceptMaster: Многоконцептная настройка видео на моделях трансформера Diffusion без настройки во время тестирования.

ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Аннотация

Support