ChatPaper.aiChatPaper

Marco Sinérgico de Doble Enmascaramiento Guiado por Atención de Gradiente para la Recuperación Robusta de Personas Basada en Texto

Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

September 11, 2025
Autores: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI

Resumen

Aunque el preentrenamiento de lenguaje e imagen contrastivo (CLIP) exhibe un rendimiento sólido en diversas tareas de visión, su aplicación al aprendizaje de representaciones de personas enfrenta dos desafíos críticos: (i) la escasez de datos anotados a gran escala de visión y lenguaje centrados en imágenes de personas, y (ii) las limitaciones inherentes del aprendizaje contrastivo global, que lucha por mantener características locales discriminativas cruciales para la coincidencia de grano fino mientras sigue siendo vulnerable a tokens de texto ruidosos. Este trabajo avanza CLIP para el aprendizaje de representaciones de personas mediante mejoras sinérgicas en la curación de datos y la arquitectura del modelo. Primero, desarrollamos una canalización de construcción de datos resistente al ruido que aprovecha las capacidades de aprendizaje en contexto de los MLLM para filtrar y describir automáticamente imágenes obtenidas de la web. Esto produce WebPerson, un conjunto de datos a gran escala de 5 millones de pares de imagen-texto de alta calidad centrados en personas. Segundo, introducimos el marco GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), que mejora la alineación multimodal al enmascarar adaptativamente tokens textuales ruidosos basados en la puntuación de similitud de atención-gradiente. Además, incorporamos objetivos de predicción de tokens enmascarados que obligan al modelo a predecir tokens de texto informativos, mejorando el aprendizaje de representación semántica de grano fino. Experimentos extensos muestran que GA-DMS alcanza un rendimiento de vanguardia en múltiples benchmarks.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong performance across diverse vision tasks, its application to person representation learning faces two critical challenges: (i) the scarcity of large-scale annotated vision-language data focused on person-centric images, and (ii) the inherent limitations of global contrastive learning, which struggles to maintain discriminative local features crucial for fine-grained matching while remaining vulnerable to noisy text tokens. This work advances CLIP for person representation learning through synergistic improvements in data curation and model architecture. First, we develop a noise-resistant data construction pipeline that leverages the in-context learning capabilities of MLLMs to automatically filter and caption web-sourced images. This yields WebPerson, a large-scale dataset of 5M high-quality person-centric image-text pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic) framework, which improves cross-modal alignment by adaptively masking noisy textual tokens based on the gradient-attention similarity score. Additionally, we incorporate masked token prediction objectives that compel the model to predict informative text tokens, enhancing fine-grained semantic representation learning. Extensive experiments show that GA-DMS achieves state-of-the-art performance across multiple benchmarks.
PDF62September 12, 2025