Градиентно-внимательный синергетический фреймворк с двойным маскированием для надежного поиска человека на основе текста
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
September 11, 2025
Авторы: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI
Аннотация
Хотя контрастивное предобучение на языково-визуальных данных (CLIP) демонстрирует высокую производительность в различных задачах компьютерного зрения, его применение для обучения представлений о людях сталкивается с двумя ключевыми проблемами: (i) недостаток крупномасштабных аннотированных данных, сочетающих изображения и текст, сфокусированных на изображениях людей, и (ii) присущие ограничения глобального контрастивного обучения, которое с трудом сохраняет дискриминативные локальные признаки, важные для точного сопоставления, и при этом остается уязвимым к шумовым текстовым токенам. В данной работе мы улучшаем CLIP для обучения представлений о людях за счет синергетических усовершенствований в подготовке данных и архитектуре модели. Во-первых, мы разрабатываем устойчивый к шуму процесс создания данных, который использует возможности обучения в контексте многоязыковых языковых моделей (MLLMs) для автоматической фильтрации и аннотирования изображений, полученных из интернета. Это позволяет создать WebPerson — крупномасштабный набор данных, содержащий 5 миллионов высококачественных пар изображение-текст, сфокусированных на людях. Во-вторых, мы представляем фреймворк GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), который улучшает кросс-модальное выравнивание за счет адаптивного маскирования шумовых текстовых токенов на основе оценки сходства градиентов и внимания. Кроме того, мы включаем задачи предсказания замаскированных токенов, которые заставляют модель предсказывать информативные текстовые токены, улучшая обучение тонкой семантической репрезентации. Многочисленные эксперименты показывают, что GA-DMS достигает наилучших результатов на нескольких бенчмарках.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong
performance across diverse vision tasks, its application to person
representation learning faces two critical challenges: (i) the scarcity of
large-scale annotated vision-language data focused on person-centric images,
and (ii) the inherent limitations of global contrastive learning, which
struggles to maintain discriminative local features crucial for fine-grained
matching while remaining vulnerable to noisy text tokens. This work advances
CLIP for person representation learning through synergistic improvements in
data curation and model architecture. First, we develop a noise-resistant data
construction pipeline that leverages the in-context learning capabilities of
MLLMs to automatically filter and caption web-sourced images. This yields
WebPerson, a large-scale dataset of 5M high-quality person-centric image-text
pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking
Synergetic) framework, which improves cross-modal alignment by adaptively
masking noisy textual tokens based on the gradient-attention similarity score.
Additionally, we incorporate masked token prediction objectives that compel the
model to predict informative text tokens, enhancing fine-grained semantic
representation learning. Extensive experiments show that GA-DMS achieves
state-of-the-art performance across multiple benchmarks.