DeCLIP: Apprendimento Disaccoppiato per la Percezione Densa a Vocabolario Aperto

Abstract

I compiti di previsione visiva densa sono stati limitati dalla loro dipendenza da categorie predefinite, restringendo la loro applicabilità in scenari reali dove i concetti visivi sono illimitati. Sebbene i modelli visione-linguaggio (VLMs) come CLIP abbiano mostrato potenziale nei compiti a vocabolario aperto, la loro applicazione diretta alla previsione densa spesso porta a prestazioni subottimali a causa di limitazioni nella rappresentazione delle caratteristiche locali. In questo lavoro, presentiamo la nostra osservazione che i token immagine di CLIP faticano ad aggregare efficacemente informazioni da regioni spazialmente o semanticamente correlate, risultando in caratteristiche che mancano di discriminabilità locale e coerenza spaziale. Per affrontare questo problema, proponiamo DeCLIP, un nuovo framework che migliora CLIP disaccoppiando il modulo di self-attention per ottenere rispettivamente caratteristiche di "contenuto" e "contesto". Le caratteristiche di "contenuto" sono allineate con le rappresentazioni dei ritagli di immagine per migliorare la discriminabilità locale, mentre le caratteristiche di "contesto" imparano a mantenere le correlazioni spaziali sotto la guida di modelli di fondazione visiva, come DINO. Esperimenti estensivi dimostrano che DeCLIP supera significativamente i metodi esistenti in vari compiti di previsione densa a vocabolario aperto, inclusi il rilevamento di oggetti e la segmentazione semantica. Il codice è disponibile all'indirizzo magenta{https://github.com/xiaomoguhz/DeCLIP}.

English

Dense visual prediction tasks have been constrained by their reliance on predefined categories, limiting their applicability in real-world scenarios where visual concepts are unbounded. While Vision-Language Models (VLMs) like CLIP have shown promise in open-vocabulary tasks, their direct application to dense prediction often leads to suboptimal performance due to limitations in local feature representation. In this work, we present our observation that CLIP's image tokens struggle to effectively aggregate information from spatially or semantically related regions, resulting in features that lack local discriminability and spatial consistency. To address this issue, we propose DeCLIP, a novel framework that enhances CLIP by decoupling the self-attention module to obtain ``content'' and ``context'' features respectively. The ``content'' features are aligned with image crop representations to improve local discriminability, while ``context'' features learn to retain the spatial correlations under the guidance of vision foundation models, such as DINO. Extensive experiments demonstrate that DeCLIP significantly outperforms existing methods across multiple open-vocabulary dense prediction tasks, including object detection and semantic segmentation. Code is available at magenta{https://github.com/xiaomoguhz/DeCLIP}.

DeCLIP: Apprendimento Disaccoppiato per la Percezione Densa a Vocabolario Aperto

DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

Abstract

Support