Framework Sinergico a Doppia Maschera Guidato da Gradient-Attention per il Recupero Robusto di Persone Basato su Testo
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
September 11, 2025
Autori: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI
Abstract
Sebbene il Contrastive Language-Image Pre-training (CLIP) dimostri prestazioni solide in una vasta gamma di task visivi, la sua applicazione all'apprendimento di rappresentazioni di persone affronta due sfide critiche: (i) la scarsità di dati visione-linguaggio su larga scala annotati e focalizzati su immagini centrate sulle persone, e (ii) le limitazioni intrinseche dell'apprendimento contrastivo globale, che fatica a mantenere caratteristiche locali discriminative cruciali per il matching fine-granularità, rimanendo inoltre vulnerabile ai token testuali rumorosi. Questo lavoro avanza CLIP per l'apprendimento di rappresentazioni di persone attraverso miglioramenti sinergici nella cura dei dati e nell'architettura del modello. In primo luogo, sviluppiamo una pipeline di costruzione dei dati resistente al rumore che sfrutta le capacità di in-context learning dei MLLM per filtrare e descrivere automaticamente immagini provenienti dal web. Ciò produce WebPerson, un dataset su larga scala di 5 milioni di coppie immagine-testo di alta qualità centrate sulle persone. In secondo luogo, introduciamo il framework GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), che migliora l'allineamento cross-modale mascherando adattivamente i token testuali rumorosi in base al punteggio di similarità gradient-attention. Inoltre, incorporiamo obiettivi di predizione di token mascherati che costringono il modello a predire token testuali informativi, migliorando l'apprendimento di rappresentazioni semantiche fine-granularità. Esperimenti estensivi dimostrano che GA-DMS raggiunge prestazioni all'avanguardia su molteplici benchmark.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong
performance across diverse vision tasks, its application to person
representation learning faces two critical challenges: (i) the scarcity of
large-scale annotated vision-language data focused on person-centric images,
and (ii) the inherent limitations of global contrastive learning, which
struggles to maintain discriminative local features crucial for fine-grained
matching while remaining vulnerable to noisy text tokens. This work advances
CLIP for person representation learning through synergistic improvements in
data curation and model architecture. First, we develop a noise-resistant data
construction pipeline that leverages the in-context learning capabilities of
MLLMs to automatically filter and caption web-sourced images. This yields
WebPerson, a large-scale dataset of 5M high-quality person-centric image-text
pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking
Synergetic) framework, which improves cross-modal alignment by adaptively
masking noisy textual tokens based on the gradient-attention similarity score.
Additionally, we incorporate masked token prediction objectives that compel the
model to predict informative text tokens, enhancing fine-grained semantic
representation learning. Extensive experiments show that GA-DMS achieves
state-of-the-art performance across multiple benchmarks.