DreamRelation: Персонализация видео с учетом отношений
DreamRelation: Relation-Centric Video Customization
March 10, 2025
Авторы: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
Аннотация
Реляционная персонализация видео относится к созданию персонализированных видеороликов, которые отображают заданные пользователем отношения между двумя объектами, что является важной задачей для понимания визуального контента реального мира. Хотя существующие методы могут персонализировать внешний вид и движения объектов, они всё ещё сталкиваются с трудностями при сложной реляционной персонализации видео, где необходимы точное моделирование отношений и высокая обобщаемость между категориями объектов. Основная проблема заключается в сложных пространственных расположениях, вариациях композиции и тонких временных динамиках, присущих отношениям; как следствие, текущие модели склонны чрезмерно акцентировать внимание на нерелевантных визуальных деталях, вместо того чтобы улавливать значимые взаимодействия. Для решения этих задач мы предлагаем DreamRelation, новый подход, который персонализирует отношения с помощью небольшого набора примеров видео, используя два ключевых компонента: Обучение с разделением отношений и Усиление реляционной динамики. Во-первых, в Обучении с разделением отношений мы разделяем отношения и внешний вид объектов с использованием триплета LoRA для отношений и стратегии обучения с гибридными масками, что обеспечивает лучшее обобщение для различных типов отношений. Кроме того, мы определяем оптимальную конструкцию триплета LoRA для отношений, анализируя различные роли признаков запроса, ключа и значения в механизме внимания MM-DiT, делая DreamRelation первой платформой для генерации реляционного видео с объяснимыми компонентами. Во-вторых, в Усилении реляционной динамики мы вводим пространственно-временной контрастный потери для отношений, который уделяет приоритетное внимание динамике отношений, минимизируя зависимость от детального внешнего вида объектов. Многочисленные эксперименты демонстрируют, что DreamRelation превосходит современные методы в реляционной персонализации видео. Код и модели будут доступны публично.
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary