컨텍스트애니원: 캐릭터 일관성을 위한 컨텍스트 인식 확산 기반 텍스트-비디오 생성
ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation
December 8, 2025
저자: Ziyang Mai, Yu-Wing Tai
cs.AI
초록
텍스트-비디오(T2V) 생성 기술은 빠르게 발전했으나, 다양한 장면에서 일관된 캐릭터 정체성을 유지하는 것은 여전히 큰 과제로 남아 있습니다. 기존의 개인화 방법은 주로 얼굴 정체성에 초점을 맞추지만, 시각적 일관성에 중요한 헤어스타일, 의상, 체형과 같은 포괄적인 맥락 정보를 보존하지 못하는 경우가 많습니다. 본 연구에서는 단일 참조 이미지와 텍스트로부터 캐릭터 일관성이 유지된 비디오 생성을 달성하는 맥락 인식 확산 프레임워크인 ContextAnyone를 제안합니다. 우리의 방법은 참조 이미지를 재구성함과 동시에 새로운 비디오 프레임을 생성하여 모델이 참조 정보를 완전히 인지하고 활용할 수 있도록 합니다. 참조 정보는 DiT 기반 확산 백본에 새로운 Emphasize-Attention 모듈을 통해 효과적으로 통합되며, 이 모듈은 참조 인식 특징을 선택적으로 강화하고 프레임 간 정체성 변이를 방지합니다. 확산 및 참조 재구성 목표를 결합한 이중 지도 손실은 외형 충실도를 향상시키는 한편, 제안된 Gap-RoPE 위치 임베딩은 참조 토큰과 비디오 토큰을 분리하여 시간적 모델링을 안정화합니다. 실험 결과, ContextAnyone는 기존 참조-비디오 방법들보다 정체성 일관성과 시각적 품질에서 우수한 성능을 보이며, 다양한 동작과 장면에서 일관되고 맥락이 보존된 캐릭터 비디오를 생성함을 입증했습니다. 프로젝트 페이지: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.
English
Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose ContextAnyone, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.