LumosX: Relacionar Identidades Cualesquiera con sus Atributos para la Generación de Vídeo Personalizado

Resumen

Los recientes avances en los modelos de difusión han mejorado significativamente la generación de video a partir de texto, permitiendo la creación de contenido personalizado con un control detallado tanto de los elementos en primer plano como del fondo. Sin embargo, la alineación precisa de los atributos faciales entre distintos sujetos sigue siendo un desafío, ya que los métodos existentes carecen de mecanismos explícitos para garantizar la coherencia intragrupal. Abordar esta brecha requiere tanto estrategias de modelado explícito como recursos de datos conscientes de los atributos faciales. Por lo tanto, proponemos LumosX, un marco que avanza tanto en el diseño de datos como en el del modelo. En el lado de los datos, una canalización de recopilación personalizada orquesta leyendas y señales visuales a partir de videos independientes, mientras que los modelos lingüísticos multimodales de gran escala (MLLM, por sus siglas en inglés) infieren y asignan dependencias específicas de cada sujeto. Estos antecedentes relacionales extraídos imponen una estructura más granular que amplifica el control expresivo de la generación de video personalizado y permite la construcción de un punto de referencia integral. En el lado del modelado, la Autoatención Relacional y la Cruz-Atención Relacional entrelazan incrustaciones sensibles a la posición con dinámicas de atención refinadas para inscribir dependencias explícitas entre sujetos y atributos, imponiendo una cohesión intragrupal disciplinada y amplificando la separación entre distintos grupos de sujetos. Las evaluaciones exhaustivas en nuestro punto de referencia demuestran que LumosX logra un rendimiento de vanguardia en la generación de video multi-sujeto personalizada, con granularidad fina, identidad consistente y alineación semántica. El código y los modelos están disponibles en https://jiazheng-xing.github.io/lumosx-home/.

English

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.

LumosX: Relacionar Identidades Cualesquiera con sus Atributos para la Generación de Vídeo Personalizado

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Resumen

Support