NearID : Apprentissage de la représentation d'identité via des distracteurs quasi-identitaires

Résumé

Lors de l'évaluation de tâches centrées sur l'identité, telles que la génération personnalisée et l'édition d'images, les encodeurs visuels existants entraînent un enchevêtrement de l'identité de l'objet avec le contexte de l'arrière-plan, conduisant à des représentations et des métriques peu fiables. Nous présentons le premier cadre méthodologique pour adresser cette vulnérabilité en utilisant des distracteurs de quasi-identité (NearID), où des instances sémantiquement similaires mais distinctes sont placées sur exactement le même arrière-plan qu'une image de référence, éliminant ainsi les raccourcis contextuels et isolant l'identité comme seul signal discriminatif. Sur la base de ce principe, nous présentons le jeu de données NearID (19 000 identités, 316 000 distracteurs à contexte apparié) ainsi qu'un protocole d'évaluation strict basé sur une marge. Dans ce cadre, les encodeurs pré-entraînés obtiennent de faibles performances, atteignant des Taux de Succès par Échantillon (SSR), une métrique stricte de discrimination d'identité basée sur une marge, aussi bas que 30,7 %, classant souvent les distracteurs au-dessus des véritables correspondances inter-vues. Nous résolvons ce problème en apprenant des représentations sensibles à l'identité sur un backbone figé à l'aide d'un objectif contrastif à deux niveaux imposant la hiérarchie : même identité > distracteur NearID > négatif aléatoire. Cette approche améliore le SSR à 99,2 %, renforce la discrimination au niveau des parties de 28,0 %, et produit un meilleur alignement avec les jugements humains sur DreamBench++, un benchmark aligné sur l'humain pour la personnalisation. Page du projet : https://gorluxor.github.io/NearID/

English

When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/

NearID : Apprentissage de la représentation d'identité via des distracteurs quasi-identitaires

NearID: Identity Representation Learning via Near-identity Distractors

Résumé

Support