LumosX: Relacionar Identidades com Seus Atributos para Geração de Vídeos Personalizados

Resumo

Os recentes avanços nos modelos de difusão melhoraram significativamente a geração de vídeo a partir de texto, permitindo a criação de conteúdo personalizado com controle refinado sobre elementos em primeiro plano e no fundo. No entanto, o alinhamento preciso de atributos faciais entre diferentes sujeitos continua a ser um desafio, uma vez que os métodos existentes carecem de mecanismos explícitos para garantir a consistência intragrupo. Para colmatar esta lacuna, são necessárias tanto estratégias de modelação explícita como recursos de dados conscientes dos atributos faciais. Propomos, portanto, o LumosX, uma estrutura que avança tanto no design de dados como no design do modelo. No lado dos dados, um *pipeline* de recolha personalizado orquestra legendas e pistas visuais de vídeos independentes, enquanto modelos multimodais de linguagem de grande escala (*MLLMs*) inferem e atribuem dependências específicas por sujeito. Estas prioridades relacionais extraídas impõem uma estrutura mais refinada que amplifica o controlo expressivo da geração de vídeo personalizada e permite a construção de um *benchmark* abrangente. No lado da modelação, a Autoatenção Relacional e a Autoatenção Cruzada Relacional entrelaçam *embeddings* conscientes da posição com uma dinâmica de atenção refinada para inscrever dependências explícitas entre sujeitos e atributos, impondo uma coesão intragrupo disciplinada e amplificando a separação entre clusters de sujeitos distintos. Avaliações abrangentes no nosso *benchmark* demonstram que o LumosX alcança um desempenho de ponta na geração de vídeo personalizada multissujeito, com granularidade refinada, identidade consistente e alinhamento semântico. O código e os modelos estão disponíveis em https://jiazheng-xing.github.io/lumosx-home/.

English

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.

LumosX: Relacionar Identidades com Seus Atributos para Geração de Vídeos Personalizados

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Resumo

Support