NearID: Identiteitsrepresentatieleren via Near-identity Distractors

Samenvatting

Bij de evaluatie van identiteitsgerichte taken zoals gepersonaliseerde generatie en beeldbewerking, vertonen bestaande vision-encoders een verstrengeling van objectidentiteit met achtergrondcontext, wat leidt tot onbetrouwbare representaties en metrieken. Wij introduceren het eerste principiële framework om deze kwetsbaarheid aan te pakken met behulp van Near-identity (NearID) distractors, waarbij semantisch vergelijkbare maar distinctieve instanties op exact dezelfde achtergrond worden geplaatst als een referentiebeeld. Dit elimineert contextuele shortcuts en isoleert identiteit als enige discriminerende signaal. Gebaseerd op dit principe presenteren we de NearID-dataset (19K identiteiten, 316K matched-context distractors) samen met een strikt margin-gebaseerd evaluatieprotocol. In deze setting presteren voorgetrainde encoders slecht, met Sample Success Rates (SSR) – een strikte margin-gebaseerde identiteitsdiscriminatiemetriek – die slechts 30.7% bedragen, waarbij distractors vaak hoger worden gerangschikt dan echte cross-view matches. Wij lossen dit op door identiteitsbewuste representaties aan te leren op een bevroren backbone met een tweelaags contrastief doel dat de hiërarchie afdwingt:zelfde identiteit > NearID-distractor > willekeurige negatieve. Dit verbetert de SSR tot 99.2%, verhoogt part-level discriminatie met 28.0%, en resulteert in een sterkere afstemming met menselijke oordelen op DreamBench++, een menselijk afgestelde benchmark voor personalisatie. Projectpagina: https://gorluxor.github.io/NearID/

English

When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/

NearID: Identiteitsrepresentatieleren via Near-identity Distractors

NearID: Identity Representation Learning via Near-identity Distractors

Samenvatting

Support