DreamRelation : Personnalisation de vidéos centrée sur les relations
DreamRelation: Relation-Centric Video Customization
March 10, 2025
Auteurs: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
Résumé
La personnalisation relationnelle de vidéos désigne la création de vidéos personnalisées qui représentent des relations spécifiées par l'utilisateur entre deux sujets, une tâche cruciale pour la compréhension du contenu visuel du monde réel. Bien que les méthodes existantes puissent personnaliser les apparences et les mouvements des sujets, elles peinent encore à gérer la personnalisation relationnelle complexe de vidéos, où une modélisation relationnelle précise et une généralisation élevée entre catégories de sujets sont essentielles. Le défi principal provient des arrangements spatiaux complexes, des variations de mise en page et des dynamiques temporelles nuancées inhérentes aux relations ; par conséquent, les modèles actuels ont tendance à surestimer des détails visuels non pertinents plutôt que de capturer des interactions significatives. Pour relever ces défis, nous proposons DreamRelation, une approche novatrice qui personnalise les relations à travers un petit ensemble de vidéos exemplaires, en s'appuyant sur deux composants clés : l'apprentissage par découplage relationnel et l'amélioration des dynamiques relationnelles. Premièrement, dans l'apprentissage par découplage relationnel, nous dissocions les relations des apparences des sujets en utilisant un triplet relationnel LoRA et une stratégie d'entraînement par masque hybride, garantissant une meilleure généralisation à travers diverses relations. De plus, nous déterminons la conception optimale du triplet relationnel LoRA en analysant les rôles distincts des caractéristiques de requête, clé et valeur dans le mécanisme d'attention de MM-DiT, faisant de DreamRelation le premier cadre de génération de vidéos relationnelles avec des composants explicables. Deuxièmement, dans l'amélioration des dynamiques relationnelles, nous introduisons une perte contrastive relationnelle spatio-temporelle, qui priorise les dynamiques relationnelles tout en minimisant la dépendance aux détails d'apparence des sujets. Des expériences approfondies démontrent que DreamRelation surpasse les méthodes de pointe en personnalisation relationnelle de vidéos. Le code et les modèles seront rendus publics.
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary