ChatPaper.aiChatPaper

Cadre Synergétique à Double Masquage Guidé par Gradient-Attention pour une Recherche Robuste de Personnes Basée sur le Texte

Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

September 11, 2025
papers.authors: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI

papers.abstract

Bien que le pré-entraînement contrastif texte-image (CLIP) démontre des performances solides sur diverses tâches de vision, son application à l'apprentissage de représentations de personnes rencontre deux défis majeurs : (i) la rareté de données vision-langue annotées à grande échelle centrées sur des images de personnes, et (ii) les limitations inhérentes à l'apprentissage contrastif global, qui peine à préserver les caractéristiques locales discriminantes essentielles pour un appariement fin, tout en restant vulnérable aux tokens textuels bruyants. Ce travail améliore CLIP pour l'apprentissage de représentations de personnes grâce à des avancées synergiques en matière de curation de données et d'architecture de modèle. Premièrement, nous développons un pipeline de construction de données résistant au bruit qui exploite les capacités d'apprentissage en contexte des MLLMs pour filtrer et légender automatiquement des images issues du web. Cela donne naissance à WebPerson, un jeu de données à grande échelle de 5 millions de paires image-texte de haute qualité centrées sur des personnes. Deuxièmement, nous introduisons le cadre GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), qui améliore l'alignement intermodal en masquant de manière adaptative les tokens textuels bruyants basés sur le score de similarité gradient-attention. De plus, nous intégrons des objectifs de prédiction de tokens masqués qui contraignent le modèle à prédire des tokens textuels informatifs, renforçant ainsi l'apprentissage de représentations sémantiques fines. Des expériences approfondies montrent que GA-DMS atteint des performances de pointe sur plusieurs benchmarks.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong performance across diverse vision tasks, its application to person representation learning faces two critical challenges: (i) the scarcity of large-scale annotated vision-language data focused on person-centric images, and (ii) the inherent limitations of global contrastive learning, which struggles to maintain discriminative local features crucial for fine-grained matching while remaining vulnerable to noisy text tokens. This work advances CLIP for person representation learning through synergistic improvements in data curation and model architecture. First, we develop a noise-resistant data construction pipeline that leverages the in-context learning capabilities of MLLMs to automatically filter and caption web-sourced images. This yields WebPerson, a large-scale dataset of 5M high-quality person-centric image-text pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) framework, which improves cross-modal alignment by adaptively masking noisy textual tokens based on the gradient-attention similarity score. Additionally, we incorporate masked token prediction objectives that compel the model to predict informative text tokens, enhancing fine-grained semantic representation learning. Extensive experiments show that GA-DMS achieves state-of-the-art performance across multiple benchmarks.
PDF62September 12, 2025