ChatPaper.aiChatPaper

Gradient-Attention-gesteuertes Dual-Masking-Synergie-Framework für robuste textbasierte Personenwiedererkennung

Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

September 11, 2025
papers.authors: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI

papers.abstract

Obwohl das Contrastive Language-Image Pre-training (CLIP) eine starke Leistung über verschiedene Vision-Aufgaben hinweg zeigt, stehen seiner Anwendung im Bereich der Personenrepräsentationslernens zwei kritische Herausforderungen gegenüber: (i) die Knappheit von groß angelegten, annotierten Vision-Sprache-Daten, die sich auf personenzentrierte Bilder konzentrieren, und (ii) die inhärenten Einschränkungen des globalen kontrastiven Lernens, das Schwierigkeiten hat, diskriminative lokale Merkmale, die für feinkörnige Zuordnungen entscheidend sind, beizubehalten, während es gleichzeitig anfällig für verrauschte Text-Tokens bleibt. Diese Arbeit verbessert CLIP für das Personenrepräsentationslernen durch synergetische Fortschritte in der Datenkuratierung und der Modellarchitektur. Zunächst entwickeln wir eine rauschresistente Datenkonstruktionspipeline, die die In-Context-Lernfähigkeiten von MLLMs nutzt, um automatisch webbasierte Bilder zu filtern und zu beschriften. Dies führt zu WebPerson, einem groß angelegten Datensatz von 5M hochwertigen personenzentrierten Bild-Text-Paaren. Zweitens führen wir das GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) Framework ein, das die cross-modale Ausrichtung verbessert, indem es verrauschte Text-Tokens basierend auf dem Gradient-Attention-Ähnlichkeitswert adaptiv maskiert. Zusätzlich integrieren wir maskierte Token-Vorhersageziele, die das Modell dazu zwingen, informative Text-Tokens vorherzusagen, wodurch das feinkörnige semantische Repräsentationslernen verbessert wird. Umfangreiche Experimente zeigen, dass GA-DMS state-of-the-art Leistungen über mehrere Benchmarks hinweg erzielt.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong performance across diverse vision tasks, its application to person representation learning faces two critical challenges: (i) the scarcity of large-scale annotated vision-language data focused on person-centric images, and (ii) the inherent limitations of global contrastive learning, which struggles to maintain discriminative local features crucial for fine-grained matching while remaining vulnerable to noisy text tokens. This work advances CLIP for person representation learning through synergistic improvements in data curation and model architecture. First, we develop a noise-resistant data construction pipeline that leverages the in-context learning capabilities of MLLMs to automatically filter and caption web-sourced images. This yields WebPerson, a large-scale dataset of 5M high-quality person-centric image-text pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) framework, which improves cross-modal alignment by adaptively masking noisy textual tokens based on the gradient-attention similarity score. Additionally, we incorporate masked token prediction objectives that compel the model to predict informative text tokens, enhancing fine-grained semantic representation learning. Extensive experiments show that GA-DMS achieves state-of-the-art performance across multiple benchmarks.
PDF62September 12, 2025