ChatPaper.aiChatPaper

DreamRelation: 관계 중심 비디오 커스터마이제이션

DreamRelation: Relation-Centric Video Customization

March 10, 2025
저자: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI

초록

관계적 비디오 맞춤화는 두 대상 간의 사용자 지정 관계를 묘사하는 개인화된 비디오를 생성하는 것을 의미하며, 이는 현실 세계의 시각적 콘텐츠를 이해하는 데 중요한 과제입니다. 기존 방법들은 대상의 외형과 움직임을 개인화할 수 있지만, 정밀한 관계 모델링과 다양한 대상 범주 간의 높은 일반화가 필수적인 복잡한 관계적 비디오 맞춤화에는 여전히 어려움을 겪고 있습니다. 주요 도전 과제는 관계에 내재된 복잡한 공간 배열, 레이아웃 변형, 그리고 미묘한 시간적 동역학에서 비롯됩니다. 결과적으로, 현재의 모델들은 의미 있는 상호작용을 포착하기보다는 관련 없는 시각적 세부 사항을 과도하게 강조하는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 DreamRelation이라는 새로운 접근 방식을 제안합니다. 이 방법은 소수의 예시 비디오를 활용하여 관계를 개인화하며, 두 가지 핵심 구성 요소인 관계 분리 학습(Relational Decoupling Learning)과 관계 동역학 강화(Relational Dynamics Enhancement)를 활용합니다. 먼저, 관계 분리 학습에서는 관계 LoRA 트리플렛과 하이브리드 마스크 학습 전략을 사용하여 대상의 외형과 관계를 분리함으로써 다양한 관계에 걸쳐 더 나은 일반화를 보장합니다. 더 나아가, MM-DiT의 어텐션 메커니즘 내에서 쿼리, 키, 그리고 값 특징의 구별된 역할을 분석하여 관계 LoRA 트리플렛의 최적 설계를 결정함으로써, DreamRelation은 설명 가능한 구성 요소를 갖춘 첫 번째 관계적 비디오 생성 프레임워크가 되었습니다. 둘째, 관계 동역학 강화에서는 공간-시간 관계적 대조 손실(space-time relational contrastive loss)을 도입하여, 세부적인 대상 외형에 대한 의존도를 최소화하면서 관계 동역학을 우선시합니다. 광범위한 실험을 통해 DreamRelation이 관계적 비디오 맞춤화에서 최신 방법들을 능가함을 입증했습니다. 코드와 모델은 공개될 예정입니다.
English
Relational video customization refers to the creation of personalized videos that depict user-specified relations between two subjects, a crucial task for comprehending real-world visual content. While existing methods can personalize subject appearances and motions, they still struggle with complex relational video customization, where precise relational modeling and high generalization across subject categories are essential. The primary challenge arises from the intricate spatial arrangements, layout variations, and nuanced temporal dynamics inherent in relations; consequently, current models tend to overemphasize irrelevant visual details rather than capturing meaningful interactions. To address these challenges, we propose DreamRelation, a novel approach that personalizes relations through a small set of exemplar videos, leveraging two key components: Relational Decoupling Learning and Relational Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle relations from subject appearances using relation LoRA triplet and hybrid mask training strategy, ensuring better generalization across diverse relationships. Furthermore, we determine the optimal design of relation LoRA triplet by analyzing the distinct roles of the query, key, and value features within MM-DiT's attention mechanism, making DreamRelation the first relational video generation framework with explainable components. Second, in Relational Dynamics Enhancement, we introduce space-time relational contrastive loss, which prioritizes relational dynamics while minimizing the reliance on detailed subject appearances. Extensive experiments demonstrate that DreamRelation outperforms state-of-the-art methods in relational video customization. Code and models will be made publicly available.

Summary

AI-Generated Summary

PDF141March 11, 2025