NearID: Aprendizaje de Representación de Identidad mediante Distractores de Casi-identidad

Resumen

Al evaluar tareas centradas en la identidad, como la generación personalizada y la edición de imágenes, los codificadores de visión existentes entrelazan la identidad del objeto con el contexto de fondo, lo que genera representaciones y métricas poco fiables. Presentamos el primer marco teórico para abordar esta vulnerabilidad utilizando distractores de Casi-identidad (NearID), donde instancias semánticamente similares pero distintas se sitúan exactamente sobre el mismo fondo que una imagen de referencia, eliminando los atajos contextuales y aislando la identidad como única señal discriminativa. Basándonos en este principio, presentamos el conjunto de datos NearID (19K identidades, 316K distractores de contexto coincidente) junto con un protocolo de evaluación estricto basado en márgenes. Bajo esta configuración, los codificadores preentrenados obtienen un rendimiento deficiente, logrando Tasas de Éxito de Muestra (SSR), una métrica estricta de discriminación de identidad basada en márgenes, tan bajas como del 30.7%, y a menudo clasificando a los distractores por encima de las coincidencias verdaderas de vistas cruzadas. Abordamos este problema aprendiendo representaciones conscientes de la identidad en un *backbone* congelado mediante un objetivo contrastivo de dos niveles que impone la jerarquía: misma identidad > distractor NearID > negativo aleatorio. Esto mejora la SSR al 99.2%, incrementa la discriminación a nivel de partes en un 28.0% y produce una alineación más fuerte con los juicios humanos en DreamBench++, un *benchmark* alineado con humanos para la personalización. Página del proyecto: https://gorluxor.github.io/NearID/

English

When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/

NearID: Aprendizaje de Representación de Identidad mediante Distractores de Casi-identidad

NearID: Identity Representation Learning via Near-identity Distractors

Resumen

Support