DeCLIP: Apprendimento Disaccoppiato per la Percezione Densa a Vocabolario Aperto
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
May 7, 2025
Autori: Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian
cs.AI
Abstract
I compiti di previsione visiva densa sono stati limitati dalla loro dipendenza da categorie predefinite, restringendo la loro applicabilità in scenari reali dove i concetti visivi sono illimitati. Sebbene i modelli visione-linguaggio (VLMs) come CLIP abbiano mostrato potenziale nei compiti a vocabolario aperto, la loro applicazione diretta alla previsione densa spesso porta a prestazioni subottimali a causa di limitazioni nella rappresentazione delle caratteristiche locali. In questo lavoro, presentiamo la nostra osservazione che i token immagine di CLIP faticano ad aggregare efficacemente informazioni da regioni spazialmente o semanticamente correlate, risultando in caratteristiche che mancano di discriminabilità locale e coerenza spaziale. Per affrontare questo problema, proponiamo DeCLIP, un nuovo framework che migliora CLIP disaccoppiando il modulo di self-attention per ottenere rispettivamente caratteristiche di "contenuto" e "contesto". Le caratteristiche di "contenuto" sono allineate con le rappresentazioni dei ritagli di immagine per migliorare la discriminabilità locale, mentre le caratteristiche di "contesto" imparano a mantenere le correlazioni spaziali sotto la guida di modelli di fondazione visiva, come DINO. Esperimenti estensivi dimostrano che DeCLIP supera significativamente i metodi esistenti in vari compiti di previsione densa a vocabolario aperto, inclusi il rilevamento di oggetti e la segmentazione semantica. Il codice è disponibile all'indirizzo magenta{https://github.com/xiaomoguhz/DeCLIP}.
English
Dense visual prediction tasks have been constrained by their reliance on
predefined categories, limiting their applicability in real-world scenarios
where visual concepts are unbounded. While Vision-Language Models (VLMs) like
CLIP have shown promise in open-vocabulary tasks, their direct application to
dense prediction often leads to suboptimal performance due to limitations in
local feature representation. In this work, we present our observation that
CLIP's image tokens struggle to effectively aggregate information from
spatially or semantically related regions, resulting in features that lack
local discriminability and spatial consistency. To address this issue, we
propose DeCLIP, a novel framework that enhances CLIP by decoupling the
self-attention module to obtain ``content'' and ``context'' features
respectively. The ``content'' features are aligned with image crop
representations to improve local discriminability, while ``context'' features
learn to retain the spatial correlations under the guidance of vision
foundation models, such as DINO. Extensive experiments demonstrate that DeCLIP
significantly outperforms existing methods across multiple open-vocabulary
dense prediction tasks, including object detection and semantic segmentation.
Code is available at magenta{https://github.com/xiaomoguhz/DeCLIP}.