NearID: 근접 정체성 방해 요소를 통한 정체성 표현 학습
NearID: Identity Representation Learning via Near-identity Distractors
April 2, 2026
저자: Aleksandar Cvejic, Rameen Abdal, Abdelrahman Eldesokey, Bernard Ghanem, Peter Wonka
cs.AI
초록
개인화 생성 및 이미지 편집과 같은 정체성 중심 작업을 평가할 때, 기존 비전 인코더는 객체 정체성과 배경 맥락을 혼재시켜 신뢰할 수 없는 표현과 지표를 초래합니다. 본 연구에서는 이러한 취약점을 해결하기 위해 근접 정체성(NearID) 방해 요소를 활용한 최초의 원칙적 프레임워크를 제안합니다. 이는 의미적으로 유사하지만 구별되는 인스턴스를 참조 이미지와 동일한 배경에 배치하여 맥락적 단서를 제거하고 정체성을 유일한 판별 신호로 격리합니다. 이 원칙에 기반하여 NearID 데이터셋(19K 정체성, 316K 동일 맥락 방해 요소)과 엄격한 마진 기반 평가 프로토콜을 제시합니다. 이 설정 하에서 사전 학습된 인코더들은 샘플 성공률(SSR)이 30.7%에 불과한 등 낮은 성능을 보이며, 종종 참조 이미지의 크로스 뷰 정답보다 방해 요소를 더 높은 순위로 평가합니다. 이를 해결하기 위해 고정된 백본 위에서 2단계 대조 목적함수(동일 정체성 > NearID 방해 요소 > 무작위 부정 샘플 계층 구조 강화)를 사용하여 정체성 인식 표현을 학습합니다. 이는 SSR을 99.2%로 향상시키고, 부분 수준 판별력을 28.0% 개선하며, 개인화를 위한 인간 정렬 벤치마크인 DreamBench++에서 인간 판단과의更强한 일치도를 보여줍니다. 프로젝트 페이지: https://gorluxor.github.io/NearID/
English
When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/