LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung

Zusammenfassung

Jüngste Fortschritte bei Diffusionsmodellen haben die Text-zu-Video-Generierung erheblich verbessert und ermöglichen personalisierte Inhaltserstellung mit feinkörniger Kontrolle über Vorder- und Hintergrundelemente. Allerdings bleibt die präzise Gesichtsattribut-Ausrichtung über verschiedene Subjekte hinweg eine Herausforderung, da bestehende Methoden keine expliziten Mechanismen zur Sicherstellung von Intra-Gruppen-Konsistenz bieten. Um diese Lücke zu schließen, sind sowohl explizite Modellierungsstrategien als auch gesichtsattribut-sensitive Datenressourcen erforderlich. Daher schlagen wir LumosX vor, ein Framework, das sowohl Daten- als auch Modellgestaltung vorantreibt. Auf der Datenseite orchestriert eine maßgeschneiderte Erfassungspipeline Beschriftungen und visuelle Hinweise aus unabhängigen Videos, während multimodale große Sprachmodelle (MLLMs) subjektspezifische Abhängigkeiten inferieren und zuweisen. Diese extrahierten relationalen Priors verleihen eine feinkörnigere Struktur, die die expressive Kontrolle personalisierter Videogenerierung verstärkt und den Aufbau eines umfassenden Benchmarks ermöglicht. Auf der Modellierungsseite verweben Relational Self-Attention und Relational Cross-Attention positionssensitive Einbettungen mit verfeinerten Aufmerksamkeitsdynamiken, um explizite Subjekt-Attribut-Abhängigkeiten einzubetten, wodurch disziplinierte Intra-Gruppen-Kohäsion erzwungen und die Trennung zwischen verschiedenen Subjektclustern verstärkt wird. Umfassende Evaluierungen auf unserem Benchmark zeigen, dass LumosX state-of-the-art Leistung in feinkörniger, identitätskonsistenter und semantisch abgestimmter personalisierter Multi-Subjekt-Videogenerierung erreicht. Code und Modelle sind verfügbar unter https://jiazheng-xing.github.io/lumosx-home/.

English

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.

LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Zusammenfassung

Support