LumosX : Relier toute identité à ses attributs pour la génération vidéo personnalisée

Résumé

Les progrès récents des modèles de diffusion ont considérablement amélioré la génération vidéo à partir de texte, permettant la création de contenu personnalisé avec un contrôle granulaire des éléments de premier plan et d'arrière-plan. Cependant, l'alignement précis des attributs faciaux entre différents sujets reste difficile, car les méthodes existantes manquent de mécanismes explicites pour garantir la cohérence intra-groupe. Combler cette lacune nécessite à la fois des stratégies de modélisation explicite et des ressources de données sensibles aux attributs faciaux. Nous proposons donc LumosX, un cadre qui fait progresser à la fois les données et la conception du modèle. Sur le plan des données, un pipeline de collecte sur mesure orchestre les légendes et indices visuels provenant de vidéos indépendantes, tandis que les grands modèles linguistiques multimodaux (MLLM) infèrent et attribuent des dépendances spécifiques aux sujets. Ces relations a priori extraites imposent une structure plus fine qui amplifie le contrôle expressif de la génération vidéo personnalisée et permet la construction d'un benchmark complet. Sur le plan de la modélisation, l'auto-attention relationnelle et l'attention croisée relationnelle entrelacent des embeddings sensibles à la position avec une dynamique d'attention raffinée pour inscrire des dépendances explicites sujet-attribut, imposant une cohésion intra-groupe disciplinée et amplifiant la séparation entre clusters de sujets distincts. Des évaluations complètes sur notre benchmark démontrent que LumosX atteint des performances de pointe en génération vidéo multi-sujets personnalisée, granulaire, cohérente en identité et alignée sémantiquement. Le code et les modèles sont disponibles à l'adresse https://jiazheng-xing.github.io/lumosx-home/.

English

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.

LumosX : Relier toute identité à ses attributs pour la génération vidéo personnalisée

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Résumé

Support