DreamRelation: Personalizzazione Video Centrata sulle Relazioni
DreamRelation: Relation-Centric Video Customization
March 10, 2025
Autori: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
Abstract
La personalizzazione relazionale dei video si riferisce alla creazione di video personalizzati che rappresentano relazioni specificate dall'utente tra due soggetti, un compito cruciale per comprendere il contenuto visivo del mondo reale. Sebbene i metodi esistenti possano personalizzare l'aspetto e i movimenti dei soggetti, continuano a incontrare difficoltà nella personalizzazione relazionale complessa dei video, dove sono essenziali una modellazione relazionale precisa e un'elevata generalizzazione tra categorie di soggetti. La sfida principale deriva dalle intricate disposizioni spaziali, variazioni di layout e dinamiche temporali sfumate intrinseche alle relazioni; di conseguenza, i modelli attuali tendono a enfatizzare eccessivamente dettagli visivi irrilevanti piuttosto che catturare interazioni significative. Per affrontare queste sfide, proponiamo DreamRelation, un approccio innovativo che personalizza le relazioni attraverso un piccolo insieme di video esemplari, sfruttando due componenti chiave: l'Apprendimento di Decoupling Relazionale e il Potenziamento delle Dinamiche Relazionali. In primo luogo, nell'Apprendimento di Decoupling Relazionale, separiamo le relazioni dall'aspetto dei soggetti utilizzando una tripla LoRA relazionale e una strategia di addestramento con maschera ibrida, garantendo una migliore generalizzazione tra diverse relazioni. Inoltre, determiniamo il design ottimale della tripla LoRA relazionale analizzando i ruoli distinti delle caratteristiche di query, chiave e valore all'interno del meccanismo di attenzione di MM-DiT, rendendo DreamRelation il primo framework di generazione video relazionale con componenti spiegabili. In secondo luogo, nel Potenziamento delle Dinamiche Relazionali, introduciamo una perdita contrastiva relazionale spazio-temporale, che privilegia le dinamiche relazionali riducendo al minimo la dipendenza dai dettagli dell'aspetto dei soggetti. Esperimenti estensivi dimostrano che DreamRelation supera i metodi all'avanguardia nella personalizzazione relazionale dei video. Codice e modelli saranno resi pubblicamente disponibili.
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary