LumosX: Relacionar Identidades com Seus Atributos para Geração de Vídeos Personalizados
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
March 20, 2026
Autores: Jiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu
cs.AI
Resumo
Os recentes avanços nos modelos de difusão melhoraram significativamente a geração de vídeo a partir de texto, permitindo a criação de conteúdo personalizado com controle refinado sobre elementos em primeiro plano e no fundo. No entanto, o alinhamento preciso de atributos faciais entre diferentes sujeitos continua a ser um desafio, uma vez que os métodos existentes carecem de mecanismos explícitos para garantir a consistência intragrupo. Para colmatar esta lacuna, são necessárias tanto estratégias de modelação explícita como recursos de dados conscientes dos atributos faciais. Propomos, portanto, o LumosX, uma estrutura que avança tanto no design de dados como no design do modelo. No lado dos dados, um *pipeline* de recolha personalizado orquestra legendas e pistas visuais de vídeos independentes, enquanto modelos multimodais de linguagem de grande escala (*MLLMs*) inferem e atribuem dependências específicas por sujeito. Estas prioridades relacionais extraídas impõem uma estrutura mais refinada que amplifica o controlo expressivo da geração de vídeo personalizada e permite a construção de um *benchmark* abrangente. No lado da modelação, a Autoatenção Relacional e a Autoatenção Cruzada Relacional entrelaçam *embeddings* conscientes da posição com uma dinâmica de atenção refinada para inscrever dependências explícitas entre sujeitos e atributos, impondo uma coesão intragrupo disciplinada e amplificando a separação entre clusters de sujeitos distintos. Avaliações abrangentes no nosso *benchmark* demonstram que o LumosX alcança um desempenho de ponta na geração de vídeo personalizada multissujeito, com granularidade refinada, identidade consistente e alinhamento semântico. O código e os modelos estão disponíveis em https://jiazheng-xing.github.io/lumosx-home/.
English
Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.