DreamRelation: Relation-Gerichte Video-Aanpassing
DreamRelation: Relation-Centric Video Customization
March 10, 2025
Auteurs: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
Samenvatting
Relationele videoaanpassing verwijst naar het creëren van gepersonaliseerde video's die door de gebruiker gespecificeerde relaties tussen twee onderwerpen weergeven, een cruciale taak voor het begrijpen van visuele inhoud uit de echte wereld. Hoewel bestaande methoden het uiterlijk en de bewegingen van onderwerpen kunnen personaliseren, hebben ze nog steeds moeite met complexe relationele videoaanpassing, waarbij nauwkeurige relationele modellering en hoge generalisatie over onderwerpcategorieën essentieel zijn. De belangrijkste uitdaging ontstaat door de ingewikkelde ruimtelijke arrangementen, lay-outvariaties en genuanceerde temporele dynamiek die inherent zijn aan relaties; als gevolg daarvan hebben huidige modellen de neiging om irrelevante visuele details te veel te benadrukken in plaats van betekenisvolle interacties vast te leggen. Om deze uitdagingen aan te pakken, stellen we DreamRelation voor, een nieuwe aanpak die relaties personaliseert via een kleine set voorbeeldvideo's, gebruikmakend van twee sleutelcomponenten: Relationeel Ontkoppelend Leren en Relationele Dynamiekverbetering. Ten eerste, in Relationeel Ontkoppelend Leren, ontwarren we relaties van het uiterlijk van onderwerpen met behulp van een relationele LoRA-triplet en een hybride maskertrainingsstrategie, wat zorgt voor betere generalisatie over diverse relaties. Bovendien bepalen we het optimale ontwerp van het relationele LoRA-triplet door de verschillende rollen van de query-, key- en waardefeatures binnen het aandachtmechanisme van MM-DiT te analyseren, waardoor DreamRelation het eerste relationele videogeneratieframework met verklaarbare componenten wordt. Ten tweede, in Relationele Dynamiekverbetering, introduceren we een ruimte-tijd relationeel contrastief verlies, dat prioriteit geeft aan relationele dynamiek terwijl het de afhankelijkheid van gedetailleerde onderwerpverschijningen minimaliseert. Uitgebreide experimenten tonen aan dat DreamRelation state-of-the-art methoden overtreft in relationele videoaanpassing. Code en modellen zullen publiekelijk beschikbaar worden gemaakt.
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary