WithAnyone: 제어 가능 및 ID 일관성 있는 이미지 생성 기술
WithAnyone: Towards Controllable and ID Consistent Image Generation
October 16, 2025
저자: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
초록
동일성 일관성 생성(identity-consistent generation)은 텍스트-이미지 연구에서 중요한 초점으로 자리 잡았으며, 최근 모델들은 참조 동일성과 일치하는 이미지를 생성하는 데 있어 주목할 만한 성과를 거두고 있습니다. 그러나 동일 인물의 다중 이미지를 포함하는 대규모 짝지어진 데이터셋의 부족으로 인해 대부분의 접근 방식은 재구성 기반 훈련을 채택할 수밖에 없습니다. 이러한 의존성은 종종 '복사-붙여넣기(copy-paste)'라는 실패 모드로 이어지는데, 이는 모델이 포즈, 표정, 조명 등 자연스러운 변화 속에서 동일성을 유지하기보다는 참조 얼굴을 직접 복제하는 현상을 말합니다. 이러한 과도한 유사성은 제어 가능성을 저해하고 생성의 표현력을 제한합니다. 이러한 한계를 해결하기 위해 우리는 (1) 다중 인물 시나리오에 맞춰 각 동일성에 대해 다양한 참조를 제공하는 대규모 짝지어진 데이터셋인 MultiID-2M을 구축하고, (2) 복사-붙여넣기 아티팩트와 동일성 충실도 및 변화 간의 균형을 정량화하는 벤치마크를 도입하며, (3) 짝지어진 데이터를 활용하여 충실도와 다양성 간의 균형을 맞추는 대조적 동일성 손실(contrastive identity loss)을 포함한 새로운 훈련 패러다임을 제안합니다. 이러한 기여를 통해 우리는 확산 기반 모델인 WithAnyone를 개발했으며, 이 모델은 복사-붙여넣기를 효과적으로 완화하면서도 높은 동일성 유사성을 유지합니다. 광범위한 정성적 및 정량적 실험을 통해 WithAnyone가 복사-붙여넣기 아티팩트를 크게 줄이고, 포즈와 표정에 대한 제어 가능성을 향상시키며, 강력한 지각적 품질을 유지함을 입증했습니다. 사용자 연구는 또한 우리의 방법이 높은 동일성 충실도를 달성하면서도 표현력 있는 제어 가능한 생성을 가능하게 함을 검증했습니다.
English
Identity-consistent generation has become an important focus in text-to-image
research, with recent models achieving notable success in producing images
aligned with a reference identity. Yet, the scarcity of large-scale paired
datasets containing multiple images of the same individual forces most
approaches to adopt reconstruction-based training. This reliance often leads to
a failure mode we term copy-paste, where the model directly replicates the
reference face rather than preserving identity across natural variations in
pose, expression, or lighting. Such over-similarity undermines controllability
and limits the expressive power of generation. To address these limitations, we
(1) construct a large-scale paired dataset MultiID-2M, tailored for
multi-person scenarios, providing diverse references for each identity; (2)
introduce a benchmark that quantifies both copy-paste artifacts and the
trade-off between identity fidelity and variation; and (3) propose a novel
training paradigm with a contrastive identity loss that leverages paired data
to balance fidelity with diversity. These contributions culminate in
WithAnyone, a diffusion-based model that effectively mitigates copy-paste while
preserving high identity similarity. Extensive qualitative and quantitative
experiments demonstrate that WithAnyone significantly reduces copy-paste
artifacts, improves controllability over pose and expression, and maintains
strong perceptual quality. User studies further validate that our method
achieves high identity fidelity while enabling expressive controllable
generation.