ChatPaper.aiChatPaper

LumosX: 개인 맞춤형 영상 생성을 위한 아이덴티티와 속성 간 관계 설정

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

March 20, 2026
저자: Jiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu
cs.AI

초록

디퓨전 모델의 최근 발전은 텍스트-비디오 생성 기술을 크게 향상시켜 전경 및 배경 요소에 대한 세밀한 제어를 통한 개인화된 콘텐츠 제작을 가능하게 했습니다. 그러나 기존 방법론은 명시적인 메커니즘 부재로 인해 여러 대상에 걸친 정확한 얼굴 속성 정렬은 여전히 어려운 과제로 남아 있습니다. 이러한 격차를 해결하기 위해서는 명시적 모델링 전략과 얼굴 속성 인지 데이터 자원이 모두 필요합니다. 이에 우리는 데이터와 모델 설계를 모두 발전시키는 LumosX 프레임워크를 제안합니다. 데이터 측면에서는 독립적인 비디오들로부터 캡션과 시각적 단서를 체계적으로 구성하는 맞춤형 수집 파이프라인과 다중 모드 대형 언어 모델(MLLM)을 통한 대상별 의존성 추론 및 할당을 수행합니다. 이렇게 추출된 관계적 사전 정보는 더 세분화된 구조를 적용하여 개인화된 비디오 생성의 표현적 제어력을 향상시키고 포괄적인 벤치마크 구축을 가능하게 합니다. 모델링 측면에서는 관계적 자기 주의력과 관계적 교차 주의력이 위치 인지 임베딩과 정제된 주의력 역학을 결합하여 명시적인 대상-속성 의존성을 부여함으로써, 그룹 내 일관성을 엄격하게 유지하고 서로 다른 대상 군집 간 분리를 증대시킵니다. 우리의 벤치마크에 대한 포괄적 평가 결과, LumosX가 세밀한 제어, 정체성 일관성, 의미론적 정렬이 요구되는 개인화된 다중 대상 비디오 생성 분야에서 최첨단 성능을 달성함을 입증합니다. 코드와 모델은 https://jiazheng-xing.github.io/lumosx-home/에서 확인할 수 있습니다.
English
Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.
PDF211March 24, 2026