NearID: 近傍同一性妨害者による同一性表現学習
NearID: Identity Representation Learning via Near-identity Distractors
April 2, 2026
著者: Aleksandar Cvejic, Rameen Abdal, Abdelrahman Eldesokey, Bernard Ghanem, Peter Wonka
cs.AI
要旨
個人化生成や画像編集といった識別情報に焦点を当てたタスクを評価する際、既存の視覚エンコーダは対象の識別情報を背景コンテキストと絡み合わせてしまうため、信頼性の低い表現と評価指標が生じる問題がある。本研究では、この脆弱性を原理的に解決する初のフレームワークを提案する。具体的には、意味的に類似しているが異なるインスタンス(NearID distractor)を参照画像と全く同じ背景に配置し、文脈的なショートカットを排除して、識別情報のみを判別信号として分離する。この原理に基づき、NearIDデータセット(19,000の識別情報、316,000の同一背景distractor)と厳格なマージンベースの評価プロトコルを構築した。この設定下では、事前学習済みエンコーダの性能は低く、厳格なマージンベースの識別指標であるSample Success Rate (SSR) は30.7%まで低下し、クロスビューでの正しい一致よりもdistractorを高く順位付けすることが多い。この問題に対処するため、凍結したバックボーン上で、同一識別情報 > NearID distractor > ランダムネガティブという階層を強制する二段階の対照学習目標を用いて、識別情報を意識した表現を学習する。これにより、SSRは99.2%に改善し、部分レベルの識別能力が28.0%向上し、個人化のための人間評価に整合したベンチマークDreamBench++において、人間の判断とのより強い一致が得られる。プロジェクトページ: https://gorluxor.github.io/NearID/
English
When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/