NearID: Aprendizagem de Representação de Identidade por meio de Distratores de Quase-identidade

Resumo

Ao avaliar tarefas centradas na identidade, como geração personalizada e edição de imagens, os codificadores de visão existentes emaranham a identidade do objeto com o contexto de fundo, levando a representações e métricas não confiáveis. Introduzimos o primeiro framework fundamentado para abordar essa vulnerabilidade usando distratores de Quase-identidade (NearID), nos quais instâncias semanticamente similares, mas distintas, são colocadas exatamente no mesmo fundo de uma imagem de referência, eliminando atalhos contextuais e isolando a identidade como o único sinal discriminativo. Com base neste princípio, apresentamos o conjunto de dados NearID (19K identidades, 316K distratores com contexto correspondente) juntamente com um protocolo de avaliação rigoroso baseado em margem. Nesta configuração, os codificadores pré-treinados têm um desempenho fraco, alcançando Taxas de Sucesso por Amostra (SSR), uma métrica estrita de discriminação de identidade baseada em margem, tão baixas quanto 30,7%, frequentemente classificando os distratores acima de correspondências verdadeiras entre diferentes vistas. Solucionamos isso aprendendo representações conscientes da identidade em um *backbone* congelado usando um objetivo contrastivo de dois níveis que impõe a hierarquia: mesma identidade > distrator NearID > negativo aleatório. Isso melhora a SSR para 99,2%, aumenta a discriminação a nível de partes em 28,0% e resulta em um alinhamento mais forte com os julgamentos humanos no DreamBench++, um *benchmark* alinhado com humanos para personalização. Página do projeto: https://gorluxor.github.io/NearID/

English

When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/

NearID: Aprendizagem de Representação de Identidade por meio de Distratores de Quase-identidade

NearID: Identity Representation Learning via Near-identity Distractors

Resumo

Support