DreamRelation: 関係性中心のビデオカスタマイズ
DreamRelation: Relation-Centric Video Customization
March 10, 2025
著者: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
要旨
関係性ビデオカスタマイゼーションとは、ユーザーが指定した2つの対象間の関係を描いたパーソナライズドビデオを作成することを指し、現実世界の視覚的コンテンツを理解する上で重要なタスクです。既存の手法では対象の外観や動きをパーソナライズできますが、複雑な関係性ビデオカスタマイゼーションにおいては、正確な関係性モデリングと対象カテゴリ間での高い汎化能力が不可欠であり、依然として困難を抱えています。主な課題は、関係性に内在する複雑な空間配置、レイアウトの変動、そして微妙な時間的ダイナミクスに起因しており、その結果、現在のモデルは意味のある相互作用を捉えるよりも、無関係な視覚的詳細を過度に強調する傾向があります。これらの課題に対処するため、我々はDreamRelationを提案します。これは、少数の例示ビデオを活用して関係性をパーソナライズする新しいアプローチであり、2つの主要なコンポーネント、すなわち「関係性分離学習(Relational Decoupling Learning)」と「関係性ダイナミクス強化(Relational Dynamics Enhancement)」を活用します。まず、関係性分離学習では、関係LoRAトリプレットとハイブリッドマスク学習戦略を用いて、関係性を対象の外観から分離し、多様な関係性にわたるより良い汎化を確保します。さらに、MM-DiTのアテンションメカニズム内におけるクエリ、キー、およびバリューフィーチャーの役割を分析することで、関係LoRAトリプレットの最適な設計を決定し、DreamRelationを説明可能なコンポーネントを備えた最初の関係性ビデオ生成フレームワークとします。次に、関係性ダイナミクス強化では、空間-時間関係性コントラスト損失を導入し、詳細な対象の外観への依存を最小限に抑えながら、関係性ダイナミクスを優先します。大規模な実験により、DreamRelationが関係性ビデオカスタマイゼーションにおいて最先端の手法を凌駕することが実証されています。コードとモデルは公開される予定です。
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary