LumosX: Koppel Identiteiten aan Hun Attributen voor Gepersonaliseerde Videogeneratie

Samenvatting

Recente vooruitgang in diffusiemodellen heeft tekst-naar-video-generatie aanzienlijk verbeterd, waardoor gepersonaliseerde contentcreatie met fijnmazige controle over zowel voorgrond- als achtergrondelementen mogelijk is geworden. Precieze uitlijning van gezichtskenmerken tussen verschillende subjecten blijft echter een uitdaging, omdat bestaande methoden expliciete mechanismen missen om intra-groepsconsistentie te garanderen. Het oplossen van deze kloof vereist zowel expliciete modelleerstrategieën als gegevensbronnen die bewust zijn van gezichtskenmerken. Daarom stellen wij LumosX voor, een raamwerk dat zowel de gegevens- als de modelontwerpkant vooruithelpt. Aan de gegevenskant organiseert een toegesneden verzamelpijplijn bijschriften en visuele aanwijzingen uit onafhankelijke video's, terwijl multimodale grote taalmodellen (MLLM's) subjectspecifieke afhankelijkheden afleiden en toewijzen. Deze geëxtraheerde relationele prioriteiten leggen een fijnmazigere structuur op die de expressieve controle van gepersonaliseerde videogeneratie versterkt en de constructie van een uitgebreide benchmark mogelijk maakt. Aan de modelkant verweven Relationele Zelf-Aandacht en Relationele Kruis-Aandacht positiebewuste inbeddingen met verfijnde aandacht-dynamiek om expliciete subject-kenmerk-afhankelijkheden in te schrijven, waardoor gedisciplineerde intra-groepssamenhang wordt afgedwongen en de scheiding tussen verschillende subjectclusters wordt vergroot. Uitgebreide evaluaties op onze benchmark tonen aan dat LumosX state-of-the-art prestaties bereikt in fijnmazige, identiteitsconsistente en semantisch uitgelijnde gepersonaliseerde video-generatie met meerdere subjecten. Code en modellen zijn beschikbaar op https://jiazheng-xing.github.io/lumosx-home/.

English

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.

LumosX: Koppel Identiteiten aan Hun Attributen voor Gepersonaliseerde Videogeneratie

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Samenvatting

Support