LumosX: 任意のアイデンティティと属性を関連付けるパーソナライズド動画生成
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
March 20, 2026
著者: Jiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu
cs.AI
要旨
拡散モデルの最近の進歩により、テキストからビデオへの生成が大幅に改善され、前景と背景の両要素に対するきめ細かい制御を可能にしたパーソナライズドコンテンツ作成が実現している。しかし、被写体間での正確な顔属性の整合性確保は依然として課題であり、既存手法にはグループ内一貫性を保証する明示的なメカニズムが欠如している。この課題に対処するには、明示的なモデリング戦略と顔属性を意識したデータ資源の両方が必要である。そこで我々は、データとモデル設計の両面で進歩をもたらすフレームワーク「LumosX」を提案する。データ面では、独立したビデオからキャプションと視覚的手がかりを調整する特化した収集パイプラインを構築し、マルチモーダル大規模言語モデル(MLLM)が被写体固有の依存関係を推論・割り当てる。これにより抽出された関係性プライアは、より細粒度の構造を課すことでパーソナライズドビデオ生成の表現制御を強化し、包括的ベンチマークの構築を可能にする。モデリング面では、Relational Self-Attention と Relational Cross-Attention が位置認識埋め込みを洗練された注意機構と融合させ、明示的な被写体-属性依存関係を刻み込むことで、規律あるグループ内結束を強制し、異なる被写体クラスタ間の分離を増幅する。提案ベンチマークによる総合的な評価では、LumosX が細粒度・アイデンティティ一貫性・意味的整合性を備えたパーソナライズド多被写体ビデオ生成において最先端の性能を達成することを実証している。コードとモデルは https://jiazheng-xing.github.io/lumosx-home/ で公開されている。
English
Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.