LumosX: Collegare Identità e Attributi per la Generazione di Video Personalizzati

Abstract

I recenti progressi nei modelli di diffusione hanno migliorato significativamente la generazione video da testo, consentendo la creazione di contenuti personalizzati con un controllo granulare sia sugli elementi in primo piano che sullo sfondo. Tuttavia, l'allineamento preciso degli attributi facciali tra diversi soggetti rimane una sfida, poiché i metodi esistenti mancano di meccanismi espliciti per garantire la coerenza intra-gruppo. Colmare questa lacuna richiede sia strategie di modellazione esplicite che risorse dati consapevoli degli attributi facciali. Proponiamo quindi LumosX, un framework che avanza sia la progettazione dei dati che quella del modello. Sul fronte dati, una pipeline di raccolta personalizzata orchestra didascalie e segnali visivi da video indipendenti, mentre i modelli linguistici multimodali di grandi dimensioni (MLLM) inferiscono e assegnano dipendenze specifiche per soggetto. Questi priori relazionali estratti impongono una struttura più granulare che amplifica il controllo espressivo della generazione video personalizzata e consente la costruzione di un benchmark completo. Sul lato modellistico, l'Attenzione Relazionale di Sé (Relational Self-Attention) e l'Attenzione Incrociata Relazionale (Relational Cross-Attention) intrecciano incorporamenti posizionali con dinamiche di attenzione raffinate per inscrivere dipendenze esplicite soggetto-attributo, imponendo una disciplinata coesione intra-gruppo e amplificando la separazione tra distinti cluster di soggetti. Valutazioni complete sul nostro benchmark dimostrano che LumosX raggiunge prestazioni all'avanguardia nella generazione video multi-soggetto personalizzata, granulare, coerente nell'identità e allineata semanticamente. Codice e modelli sono disponibili all'indirizzo https://jiazheng-xing.github.io/lumosx-home/.

English

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.

LumosX: Collegare Identità e Attributi per la Generazione di Video Personalizzati

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Abstract

Support