Estrutura Sinérgica de Dupla Mascaramento Orientada por Atenção ao Gradiente para Recuperação Robusta de Pessoas Baseada em Texto
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
September 11, 2025
Autores: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI
Resumo
Embora o Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) exiba um desempenho robusto em diversas tarefas de visão, sua aplicação ao aprendizado de representação de pessoas enfrenta dois desafios críticos: (i) a escassez de dados em grande escala anotados de visão e linguagem focados em imagens centradas em pessoas, e (ii) as limitações inerentes do aprendizado contrastivo global, que luta para manter características locais discriminativas cruciais para correspondência de granularidade fina, ao mesmo tempo em que permanece vulnerável a tokens de texto ruidosos. Este trabalho avança o CLIP para o aprendizado de representação de pessoas por meio de melhorias sinérgicas na curadoria de dados e na arquitetura do modelo. Primeiro, desenvolvemos um pipeline de construção de dados resistente a ruídos que aproveita as capacidades de aprendizado em contexto dos MLLMs para filtrar e descrever automaticamente imagens obtidas da web. Isso resulta no WebPerson, um conjunto de dados em larga escala com 5 milhões de pares imagem-texto de alta qualidade centrados em pessoas. Segundo, introduzimos o framework GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), que melhora o alinhamento multimodal ao mascarar adaptativamente tokens textuais ruidosos com base no escore de similaridade de gradiente-atenção. Além disso, incorporamos objetivos de previsão de tokens mascarados que obrigam o modelo a prever tokens de texto informativos, aprimorando o aprendizado de representação semântica de granularidade fina. Experimentos extensivos mostram que o GA-DMS alcança desempenho de ponta em múltiplos benchmarks.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong
performance across diverse vision tasks, its application to person
representation learning faces two critical challenges: (i) the scarcity of
large-scale annotated vision-language data focused on person-centric images,
and (ii) the inherent limitations of global contrastive learning, which
struggles to maintain discriminative local features crucial for fine-grained
matching while remaining vulnerable to noisy text tokens. This work advances
CLIP for person representation learning through synergistic improvements in
data curation and model architecture. First, we develop a noise-resistant data
construction pipeline that leverages the in-context learning capabilities of
MLLMs to automatically filter and caption web-sourced images. This yields
WebPerson, a large-scale dataset of 5M high-quality person-centric image-text
pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking
Synergetic) framework, which improves cross-modal alignment by adaptively
masking noisy textual tokens based on the gradient-attention similarity score.
Additionally, we incorporate masked token prediction objectives that compel the
model to predict informative text tokens, enhancing fine-grained semantic
representation learning. Extensive experiments show that GA-DMS achieves
state-of-the-art performance across multiple benchmarks.