ChatPaper.aiChatPaper

Estrutura Sinérgica de Dupla Mascaramento Orientada por Atenção ao Gradiente para Recuperação Robusta de Pessoas Baseada em Texto

Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

September 11, 2025
Autores: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI

Resumo

Embora o Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) exiba um desempenho robusto em diversas tarefas de visão, sua aplicação ao aprendizado de representação de pessoas enfrenta dois desafios críticos: (i) a escassez de dados em grande escala anotados de visão e linguagem focados em imagens centradas em pessoas, e (ii) as limitações inerentes do aprendizado contrastivo global, que luta para manter características locais discriminativas cruciais para correspondência de granularidade fina, ao mesmo tempo em que permanece vulnerável a tokens de texto ruidosos. Este trabalho avança o CLIP para o aprendizado de representação de pessoas por meio de melhorias sinérgicas na curadoria de dados e na arquitetura do modelo. Primeiro, desenvolvemos um pipeline de construção de dados resistente a ruídos que aproveita as capacidades de aprendizado em contexto dos MLLMs para filtrar e descrever automaticamente imagens obtidas da web. Isso resulta no WebPerson, um conjunto de dados em larga escala com 5 milhões de pares imagem-texto de alta qualidade centrados em pessoas. Segundo, introduzimos o framework GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), que melhora o alinhamento multimodal ao mascarar adaptativamente tokens textuais ruidosos com base no escore de similaridade de gradiente-atenção. Além disso, incorporamos objetivos de previsão de tokens mascarados que obrigam o modelo a prever tokens de texto informativos, aprimorando o aprendizado de representação semântica de granularidade fina. Experimentos extensivos mostram que o GA-DMS alcança desempenho de ponta em múltiplos benchmarks.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong performance across diverse vision tasks, its application to person representation learning faces two critical challenges: (i) the scarcity of large-scale annotated vision-language data focused on person-centric images, and (ii) the inherent limitations of global contrastive learning, which struggles to maintain discriminative local features crucial for fine-grained matching while remaining vulnerable to noisy text tokens. This work advances CLIP for person representation learning through synergistic improvements in data curation and model architecture. First, we develop a noise-resistant data construction pipeline that leverages the in-context learning capabilities of MLLMs to automatically filter and caption web-sourced images. This yields WebPerson, a large-scale dataset of 5M high-quality person-centric image-text pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) framework, which improves cross-modal alignment by adaptively masking noisy textual tokens based on the gradient-attention similarity score. Additionally, we incorporate masked token prediction objectives that compel the model to predict informative text tokens, enhancing fine-grained semantic representation learning. Extensive experiments show that GA-DMS achieves state-of-the-art performance across multiple benchmarks.
PDF62September 12, 2025