DreamRelation: Personalización de Videos Centrada en Relaciones
DreamRelation: Relation-Centric Video Customization
March 10, 2025
Autores: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Biao Gong, Longxiang Tang, Xiang Wang, Haonan Qiu, Hengjia Li, Shuai Tan, Yingya Zhang, Hongming Shan
cs.AI
Resumen
La personalización relacional de videos se refiere a la creación de videos personalizados que representan relaciones especificadas por el usuario entre dos sujetos, una tarea crucial para comprender contenido visual del mundo real. Si bien los métodos existentes pueden personalizar las apariencias y movimientos de los sujetos, aún tienen dificultades con la personalización relacional de videos complejos, donde el modelado preciso de relaciones y una alta generalización entre categorías de sujetos son esenciales. El principal desafío surge de los intrincados arreglos espaciales, variaciones de diseño y dinámicas temporales sutiles inherentes a las relaciones; en consecuencia, los modelos actuales tienden a enfatizar en exceso detalles visuales irrelevantes en lugar de capturar interacciones significativas. Para abordar estos desafíos, proponemos DreamRelation, un enfoque novedoso que personaliza las relaciones a través de un pequeño conjunto de videos ejemplares, aprovechando dos componentes clave: Aprendizaje de Desacoplamiento Relacional y Mejora de Dinámicas Relacionales. Primero, en el Aprendizaje de Desacoplamiento Relacional, separamos las relaciones de las apariencias de los sujetos utilizando un triplete de LoRA relacional y una estrategia de entrenamiento con máscara híbrida, asegurando una mejor generalización en diversas relaciones. Además, determinamos el diseño óptimo del triplete de LoRA relacional analizando los roles distintos de las características de consulta, clave y valor dentro del mecanismo de atención de MM-DiT, convirtiendo a DreamRelation en el primer marco de generación de videos relacionales con componentes explicables. Segundo, en la Mejora de Dinámicas Relacionales, introducimos una pérdida contrastiva relacional espacio-temporal, que prioriza las dinámicas relacionales mientras minimiza la dependencia de las apariencias detalladas de los sujetos. Experimentos extensivos demuestran que DreamRelation supera a los métodos más avanzados en personalización relacional de videos. El código y los modelos estarán disponibles públicamente.
English
Relational video customization refers to the creation of personalized videos
that depict user-specified relations between two subjects, a crucial task for
comprehending real-world visual content. While existing methods can personalize
subject appearances and motions, they still struggle with complex relational
video customization, where precise relational modeling and high generalization
across subject categories are essential. The primary challenge arises from the
intricate spatial arrangements, layout variations, and nuanced temporal
dynamics inherent in relations; consequently, current models tend to
overemphasize irrelevant visual details rather than capturing meaningful
interactions. To address these challenges, we propose DreamRelation, a novel
approach that personalizes relations through a small set of exemplar videos,
leveraging two key components: Relational Decoupling Learning and Relational
Dynamics Enhancement. First, in Relational Decoupling Learning, we disentangle
relations from subject appearances using relation LoRA triplet and hybrid mask
training strategy, ensuring better generalization across diverse relationships.
Furthermore, we determine the optimal design of relation LoRA triplet by
analyzing the distinct roles of the query, key, and value features within
MM-DiT's attention mechanism, making DreamRelation the first relational video
generation framework with explainable components. Second, in Relational
Dynamics Enhancement, we introduce space-time relational contrastive loss,
which prioritizes relational dynamics while minimizing the reliance on detailed
subject appearances. Extensive experiments demonstrate that DreamRelation
outperforms state-of-the-art methods in relational video customization. Code
and models will be made publicly available.Summary
AI-Generated Summary