Gradient-Attention Gestuurd Dual-Masking Synergetisch Framework voor Robuuste Tekstgebaseerde Persoonsretrieval
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
September 11, 2025
Auteurs: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI
Samenvatting
Hoewel Contrastive Language-Image Pre-training (CLIP) sterke prestaties vertoont in diverse visuele taken, wordt de toepassing ervan op het leren van persoonrepresentaties geconfronteerd met twee kritieke uitdagingen: (i) de schaarste aan grootschalige geannoteerde visueel-linguïstische data die gericht is op persoonsgerichte afbeeldingen, en (ii) de inherente beperkingen van globaal contrastief leren, dat moeite heeft om onderscheidende lokale kenmerken te behouden die cruciaal zijn voor fijnmazige matching, terwijl het tegelijkertijd kwetsbaar blijft voor ruisachtige teksttokens. Dit werk verbetert CLIP voor het leren van persoonrepresentaties door synergetische verbeteringen in datacuratie en modelarchitectuur. Ten eerste ontwikkelen we een ruisbestendige dataconstructiepijplijn die gebruikmaakt van de in-context leermogelijkheden van MLLMs om automatisch webgebaseerde afbeeldingen te filteren en te voorzien van bijschriften. Dit resulteert in WebPerson, een grootschalige dataset van 5M hoogwaardige persoonsgerichte afbeelding-tekstparen. Ten tweede introduceren we het GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) raamwerk, dat de cross-modale alignering verbetert door adaptief ruisachtige tekstuele tokens te maskeren op basis van de gradient-attention similariteitsscore. Daarnaast integreren we gemaskeerde tokenvoorspellingsdoelen die het model dwingen om informatieve teksttokens te voorspellen, wat het leren van fijnmazige semantische representaties versterkt. Uitgebreide experimenten tonen aan dat GA-DMS state-of-the-art prestaties behaalt op meerdere benchmarks.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong
performance across diverse vision tasks, its application to person
representation learning faces two critical challenges: (i) the scarcity of
large-scale annotated vision-language data focused on person-centric images,
and (ii) the inherent limitations of global contrastive learning, which
struggles to maintain discriminative local features crucial for fine-grained
matching while remaining vulnerable to noisy text tokens. This work advances
CLIP for person representation learning through synergistic improvements in
data curation and model architecture. First, we develop a noise-resistant data
construction pipeline that leverages the in-context learning capabilities of
MLLMs to automatically filter and caption web-sourced images. This yields
WebPerson, a large-scale dataset of 5M high-quality person-centric image-text
pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking
Synergetic) framework, which improves cross-modal alignment by adaptively
masking noisy textual tokens based on the gradient-attention similarity score.
Additionally, we incorporate masked token prediction objectives that compel the
model to predict informative text tokens, enhancing fine-grained semantic
representation learning. Extensive experiments show that GA-DMS achieves
state-of-the-art performance across multiple benchmarks.