DreamRelation: Personalização de Vídeo Centrada em Relações
DreamRelation: Relation-Centric Video Customization
March 10, 2025
Autores: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
Resumo
A personalização relacional de vídeos refere-se à criação de vídeos personalizados que retratam relações especificadas pelo usuário entre dois sujeitos, uma tarefa crucial para a compreensão de conteúdo visual do mundo real. Embora os métodos existentes possam personalizar aparências e movimentos dos sujeitos, eles ainda enfrentam dificuldades com a personalização relacional complexa de vídeos, onde a modelagem precisa de relações e a alta generalização entre categorias de sujeitos são essenciais. O principal desafio surge dos arranjos espaciais intrincados, variações de layout e dinâmicas temporais sutis inerentes às relações; consequentemente, os modelos atuais tendem a enfatizar excessivamente detalhes visuais irrelevantes em vez de capturar interações significativas. Para abordar esses desafios, propomos o DreamRelation, uma abordagem inovadora que personaliza relações por meio de um pequeno conjunto de vídeos exemplares, utilizando dois componentes-chave: Aprendizado de Desacoplamento Relacional e Aprimoramento de Dinâmicas Relacionais. Primeiro, no Aprendizado de Desacoplamento Relacional, separamos as relações das aparências dos sujeitos usando o trio LoRA de relações e uma estratégia de treinamento com máscaras híbridas, garantindo uma melhor generalização em diversas relações. Além disso, determinamos o design ideal do trio LoRA de relações ao analisar os papéis distintos das características de consulta, chave e valor no mecanismo de atenção do MM-DiT, tornando o DreamRelation o primeiro framework de geração de vídeos relacionais com componentes explicáveis. Segundo, no Aprimoramento de Dinâmicas Relacionais, introduzimos a perda contrastiva espaço-temporal relacional, que prioriza as dinâmicas relacionais enquanto minimiza a dependência de detalhes de aparência dos sujeitos. Experimentos extensivos demonstram que o DreamRelation supera os métodos state-of-the-art na personalização relacional de vídeos. O código e os modelos serão disponibilizados publicamente.
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary