ChatPaper.aiChatPaper

DeCLIP: 개방형 어휘 집중 인식을 위한 분리 학습

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7, 2025
저자: Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian
cs.AI

초록

밀집 시각 예측 작업들은 사전 정의된 범주에 의존함으로써 제약을 받아왔으며, 이는 시각 개념이 무한한 실제 세계 시나리오에서의 적용 가능성을 제한해 왔습니다. CLIP과 같은 Vision-Language Models(VLMs)가 개방형 어휘 작업에서 유망한 성과를 보였지만, 이러한 모델들을 밀집 예측에 직접 적용할 경우 지역적 특징 표현의 한계로 인해 최적의 성능을 달성하지 못하는 경우가 많습니다. 본 연구에서는 CLIP의 이미지 토큰들이 공간적 또는 의미적으로 관련된 영역들로부터 정보를 효과적으로 집계하는 데 어려움을 겪으며, 이로 인해 지역적 식별력과 공간적 일관성이 부족한 특징들이 생성된다는 관찰을 제시합니다. 이러한 문제를 해결하기 위해, 우리는 CLIP을 개선한 새로운 프레임워크인 DeCLIP을 제안합니다. DeCLIP은 self-attention 모듈을 분리하여 각각 "내용(content)"과 "맥락(context)" 특징을 얻는 방식을 채택합니다. "내용" 특징은 이미지 크롭 표현과 정렬되어 지역적 식별력을 향상시키고, "맥락" 특징은 DINO와 같은 시각 기반 모델의 지도 하에 공간적 상관관계를 유지하도록 학습됩니다. 광범위한 실험을 통해 DeCLIP이 객체 탐지 및 의미론적 분할을 포함한 다양한 개방형 어휘 밀집 예측 작업에서 기존 방법들을 크게 능가함을 입증합니다. 코드는 magenta{https://github.com/xiaomoguhz/DeCLIP}에서 확인할 수 있습니다.
English
Dense visual prediction tasks have been constrained by their reliance on predefined categories, limiting their applicability in real-world scenarios where visual concepts are unbounded. While Vision-Language Models (VLMs) like CLIP have shown promise in open-vocabulary tasks, their direct application to dense prediction often leads to suboptimal performance due to limitations in local feature representation. In this work, we present our observation that CLIP's image tokens struggle to effectively aggregate information from spatially or semantically related regions, resulting in features that lack local discriminability and spatial consistency. To address this issue, we propose DeCLIP, a novel framework that enhances CLIP by decoupling the self-attention module to obtain ``content'' and ``context'' features respectively. The ``content'' features are aligned with image crop representations to improve local discriminability, while ``context'' features learn to retain the spatial correlations under the guidance of vision foundation models, such as DINO. Extensive experiments demonstrate that DeCLIP significantly outperforms existing methods across multiple open-vocabulary dense prediction tasks, including object detection and semantic segmentation. Code is available at magenta{https://github.com/xiaomoguhz/DeCLIP}.

Summary

AI-Generated Summary

PDF352May 15, 2025