NearID: Identitätsrepräsentationslernen durch Near-Identity-Distraktoren

Zusammenfassung

Bei der Bewertung von identitätsfokussierten Aufgaben wie personalisierter Generierung und Bildbearbeitung verschränken bestehende Vision-Encoder Objektidentitäten mit dem Hintergrundkontext, was zu unzuverlässigen Repräsentationen und Metriken führt. Wir stellen das erste prinzipienbasierte Framework vor, das diese Anfälligkeit durch Near-Identity (NearID) Distraktoren adressiert. Dabei werden semantisch ähnliche, aber distinkte Instanzen auf exakt demselben Hintergrund wie ein Referenzbild platziert, um kontextuelle Abkürzungen zu eliminieren und die Identität als alleinigen diskriminativen Signalgeber zu isolieren. Basierend auf diesem Prinzip präsentieren wir den NearID-Datensatz (19K Identitäten, 316K kontextangepasste Distraktoren) zusammen mit einem strengen margenbasierten Evaluierungsprotokoll. In diesem Setting schneiden vortrainierte Encoder schlecht ab und erreichen Sample Success Rates (SSR) – eine strenge margenbasierte Metrik zur Identitätsdiskriminierung – von nur 30,7 %, wobei Distraktoren oft höher als echte Cross-View-Matches gerankt werden. Wir beheben dies, indem wir identitätsbewusste Repräsentationen auf einem eingefrorenen Backbone mittels eines zweistufigen kontrastiven Lernziels erlernen, das die Hierarchie erzwingt: gleiche Identität > NearID-Distraktor > zufälliges Negativbeispiel. Dies verbessert die SSR auf 99,2 %, steigert die teilbasierte Diskriminierung um 28,0 % und führt zu einer stärkeren Übereinstimmung mit menschlichen Bewertungen auf DreamBench++, einem humanalignierten Benchmark für Personalisierung. Projektseite: https://gorluxor.github.io/NearID/

English

When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/

NearID: Identitätsrepräsentationslernen durch Near-Identity-Distraktoren

NearID: Identity Representation Learning via Near-identity Distractors

Zusammenfassung

Support