勾配注意誘導型デュアルマスキング協調フレームワークによるロバストなテキストベース人物検索
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
September 11, 2025
著者: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI
要旨
コントラスティブ言語-画像事前学習(CLIP)は多様な視覚タスクにおいて強力な性能を発揮するものの、人物表現学習への応用には2つの重要な課題が存在する:(i) 人物中心の画像に焦点を当てた大規模な注釈付き視覚-言語データの不足、および(ii) グローバルなコントラスティブ学習の本質的な限界。後者は、微細なマッチングに不可欠な識別可能なローカル特徴を維持するのが困難であり、ノイズの多いテキストトークンに対して脆弱である。本研究では、データキュレーションとモデルアーキテクチャの相乗的な改善を通じて、CLIPを人物表現学習に進化させる。まず、MLLMの文脈内学習能力を活用して、ウェブソースの画像を自動的にフィルタリングしキャプション化するノイズ耐性のあるデータ構築パイプラインを開発する。これにより、500万の高品質な人物中心の画像-テキストペアからなる大規模データセットWebPersonを構築する。次に、勾配-アテンション類似度スコアに基づいてノイズの多いテキストトークンを適応的にマスキングするGA-DMS(Gradient-Attention Guided Dual-Masking Synergetic)フレームワークを導入し、クロスモーダルアラインメントを改善する。さらに、情報量の多いテキストトークンを予測するようモデルに強制するマスクトークン予測目標を組み込み、微細な意味表現学習を強化する。大規模な実験により、GA-DMSが複数のベンチマークにおいて最先端の性能を達成することが示された。
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong
performance across diverse vision tasks, its application to person
representation learning faces two critical challenges: (i) the scarcity of
large-scale annotated vision-language data focused on person-centric images,
and (ii) the inherent limitations of global contrastive learning, which
struggles to maintain discriminative local features crucial for fine-grained
matching while remaining vulnerable to noisy text tokens. This work advances
CLIP for person representation learning through synergistic improvements in
data curation and model architecture. First, we develop a noise-resistant data
construction pipeline that leverages the in-context learning capabilities of
MLLMs to automatically filter and caption web-sourced images. This yields
WebPerson, a large-scale dataset of 5M high-quality person-centric image-text
pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking
Synergetic) framework, which improves cross-modal alignment by adaptively
masking noisy textual tokens based on the gradient-attention similarity score.
Additionally, we incorporate masked token prediction objectives that compel the
model to predict informative text tokens, enhancing fine-grained semantic
representation learning. Extensive experiments show that GA-DMS achieves
state-of-the-art performance across multiple benchmarks.