강건한 텍스트 기반 인물 검색을 위한 그래디언트-어텐션 기반 이중 마스킹 시너지 프레임워크
Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
September 11, 2025
저자: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
cs.AI
초록
Contrastive Language-Image Pre-training(CLIP)은 다양한 비전 작업에서 강력한 성능을 보이지만, 이를 사람 표현 학습에 적용할 때 두 가지 중요한 문제에 직면합니다: (i) 사람 중심 이미지에 초점을 맞춘 대규모 주석이 달린 비전-언어 데이터의 부족, 그리고 (ii) 전역 대조 학습(global contrastive learning)의 고유한 한계로, 이는 미세한 매칭에 중요한 지역적 특징을 유지하는 데 어려움을 겪으며 동시에 노이즈가 있는 텍스트 토큰에 취약합니다. 본 연구는 데이터 큐레이션과 모델 아키텍처 측면에서의 시너지 효과를 통해 CLIP을 사람 표현 학습에 더욱 발전시킵니다. 먼저, MLLM(Multimodal Large Language Models)의 문맥 학습 능력을 활용하여 웹에서 수집한 이미지를 자동으로 필터링하고 캡션을 생성하는 노이즈에 강한 데이터 구축 파이프라인을 개발합니다. 이를 통해 500만 개의 고품질 사람 중심 이미지-텍스트 쌍으로 구성된 대규모 데이터셋인 WebPerson을 구축합니다. 두 번째로, GA-DMS(Gradient-Attention Guided Dual-Masking Synergetic) 프레임워크를 도입하여, 그래디언트-어텐션 유사도 점수를 기반으로 노이즈가 있는 텍스트 토큰을 적응적으로 마스킹함으로써 크로스 모달 정렬을 개선합니다. 또한, 마스킹된 토큰 예측 목표를 추가하여 모델이 정보가 풍부한 텍스트 토큰을 예측하도록 강제함으로써 미세한 의미 표현 학습을 강화합니다. 광범위한 실험을 통해 GA-DMS가 여러 벤치마크에서 최첨단 성능을 달성함을 입증합니다.
English
Although Contrastive Language-Image Pre-training (CLIP) exhibits strong
performance across diverse vision tasks, its application to person
representation learning faces two critical challenges: (i) the scarcity of
large-scale annotated vision-language data focused on person-centric images,
and (ii) the inherent limitations of global contrastive learning, which
struggles to maintain discriminative local features crucial for fine-grained
matching while remaining vulnerable to noisy text tokens. This work advances
CLIP for person representation learning through synergistic improvements in
data curation and model architecture. First, we develop a noise-resistant data
construction pipeline that leverages the in-context learning capabilities of
MLLMs to automatically filter and caption web-sourced images. This yields
WebPerson, a large-scale dataset of 5M high-quality person-centric image-text
pairs. Second, we introduce the GA-DMS (Gradient-Attention Guided Dual-Masking
Synergetic) framework, which improves cross-modal alignment by adaptively
masking noisy textual tokens based on the gradient-attention similarity score.
Additionally, we incorporate masked token prediction objectives that compel the
model to predict informative text tokens, enhancing fine-grained semantic
representation learning. Extensive experiments show that GA-DMS achieves
state-of-the-art performance across multiple benchmarks.