NearID: Обучение представлений идентичности с помощью квазиидентичных отвлекающих примеров

Аннотация

При оценке задач, ориентированных на идентичность, таких как персонализированная генерация и редактирование изображений, существующие визуальные энкодеры смешивают идентичность объекта с контекстным фоном, что приводит к ненадежным представлениям и метрикам. Мы представляем первую принципиальную методологию для устранения этой уязвимости с использованием дистракторов, близких к идентичности (NearID), где семантически схожие, но различные экземпляры размещаются на точно таком же фоне, как и эталонное изображение, что исключает контекстуальные сокращения и изолирует идентичность как единственный дискриминативный сигнал. На основе этого принципа мы представляем набор данных NearID (19 тыс. идентичностей, 316 тыс. дистракторов с совпадающим контекстом) вместе со строгим протоколом оценки на основе маржи. В этих условиях предобученные энкодеры показывают низкую производительность, достигая коэффициента успешности выборки (Sample Success Rate, SSR) — строгой метрики дискриминации идентичности на основе маржи — всего 30,7%, часто располагая дистракторы выше истинных кросс-вью совпадений. Мы решаем эту проблему, обучая идентичностно-осознанные представления на замороженной основе с использованием двухуровневого контрастивного целевого функционала, обеспечивающего иерархию: та же идентичность > дистрактор NearID > случайный негатив. Это повышает SSR до 99,2%, улучшает дискриминацию на уровне частей на 28,0% и обеспечивает лучшее соответствие человеческим оценкам на DreamBench++ — ориентированном на человека бенчмарке для персонализации. Страница проекта: https://gorluxor.github.io/NearID/

English

When evaluating identity-focused tasks such as personalized generation and image editing, existing vision encoders entangle object identity with background context, leading to unreliable representations and metrics. We introduce the first principled framework to address this vulnerability using Near-identity (NearID) distractors, where semantically similar but distinct instances are placed on the exact same background as a reference image, eliminating contextual shortcuts and isolating identity as the sole discriminative signal. Based on this principle, we present the NearID dataset (19K identities, 316K matched-context distractors) together with a strict margin-based evaluation protocol. Under this setting, pre-trained encoders perform poorly, achieving Sample Success Rates (SSR), a strict margin-based identity discrimination metric, as low as 30.7% and often ranking distractors above true cross-view matches. We address this by learning identity-aware representations on a frozen backbone using a two-tier contrastive objective enforcing the hierarchy: same identity > NearID distractor > random negative. This improves SSR to 99.2%, enhances part-level discrimination by 28.0%, and yields stronger alignment with human judgments on DreamBench++, a human-aligned benchmark for personalization. Project page: https://gorluxor.github.io/NearID/

NearID: Обучение представлений идентичности с помощью квазиидентичных отвлекающих примеров

NearID: Identity Representation Learning via Near-identity Distractors

Аннотация

Support