ChatPaper.aiChatPaper

Gradient-Attention Gestuurd Dual-Masking Synergetisch Framework voor Robuuste Tekstgebaseerde Persoonsretrieval

Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

September 11, 2025
Auteurs: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI

Samenvatting

Hoewel Contrastive Language-Image Pre-training (CLIP) sterke prestaties vertoont in diverse visuele taken, wordt de toepassing ervan op het leren van persoonrepresentaties geconfronteerd met twee kritieke uitdagingen: (i) de schaarste aan grootschalige geannoteerde visueel-linguïstische data die gericht is op persoonsgerichte afbeeldingen, en (ii) de inherente beperkingen van globaal contrastief leren, dat moeite heeft om onderscheidende lokale kenmerken te behouden die cruciaal zijn voor fijnmazige matching, terwijl het tegelijkertijd kwetsbaar blijft voor ruisachtige teksttokens. Dit werk verbetert CLIP voor het leren van persoonrepresentaties door synergetische verbeteringen in datacuratie en modelarchitectuur. Ten eerste ontwikkelen we een ruisbestendige dataconstructiepijplijn die gebruikmaakt van de in-context leermogelijkheden van MLLMs om automatisch webgebaseerde afbeeldingen te filteren en te voorzien van bijschriften. Dit resulteert in WebPerson, een grootschalige dataset van 5M hoogwaardige persoonsgerichte afbeelding-tekstparen. Ten tweede introduceren we het GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) raamwerk, dat de cross-modale alignering verbetert door adaptief ruisachtige tekstuele tokens te maskeren op basis van de gradient-attention similariteitsscore. Daarnaast integreren we gemaskeerde tokenvoorspellingsdoelen die het model dwingen om informatieve teksttokens te voorspellen, wat het leren van fijnmazige semantische representaties versterkt. Uitgebreide experimenten tonen aan dat GA-DMS state-of-the-art prestaties behaalt op meerdere benchmarks.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong performance across diverse vision tasks, its application to person representation learning faces two critical challenges: (i) the scarcity of large-scale annotated vision-language data focused on person-centric images, and (ii) the inherent limitations of global contrastive learning, which struggles to maintain discriminative local features crucial for fine-grained matching while remaining vulnerable to noisy text tokens. This work advances CLIP for person representation learning through synergistic improvements in data curation and model architecture. First, we develop a noise-resistant data construction pipeline that leverages the in-context learning capabilities of MLLMs to automatically filter and caption web-sourced images. This yields WebPerson, a large-scale dataset of 5M high-quality person-centric image-text pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) framework, which improves cross-modal alignment by adaptively masking noisy textual tokens based on the gradient-attention similarity score. Additionally, we incorporate masked token prediction objectives that compel the model to predict informative text tokens, enhancing fine-grained semantic representation learning. Extensive experiments show that GA-DMS achieves state-of-the-art performance across multiple benchmarks.
PDF82September 12, 2025