DC-SAM: Segmentazione Contestuale in Immagini e Video tramite Doppia Consistenza
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
April 16, 2025
Autori: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
cs.AI
Abstract
Dato un singolo esempio etichettato, la segmentazione in-context mira a segmentare gli oggetti corrispondenti. Questo scenario, noto come segmentazione one-shot nell'apprendimento few-shot, esplora la capacità di generalizzazione del modello di segmentazione ed è stato applicato a vari compiti di visione, tra cui la comprensione delle scene e l'editing di immagini/video. Sebbene i recenti Segment Anything Models (SAM) abbiano raggiunto risultati all'avanguardia nella segmentazione interattiva, questi approcci non sono direttamente applicabili alla segmentazione in-context. In questo lavoro, proponiamo il metodo Dual Consistency SAM (DC-SAM) basato su prompt-tuning per adattare SAM e SAM2 alla segmentazione in-context di immagini e video. Le nostre intuizioni chiave consistono nel migliorare le caratteristiche del prompt encoder di SAM nella segmentazione fornendo prompt visivi di alta qualità. Quando generiamo una maschera prioritaria, fondiamo le caratteristiche di SAM per allineare meglio il prompt encoder. Successivamente, progettiamo un cross-attention ciclicamente consistente sulle caratteristiche fuse e sui prompt visivi iniziali. Inoltre, forniamo un design a doppio ramo utilizzando i prompt positivi e negativi discriminativi nel prompt encoder. Inoltre, progettiamo una semplice strategia di addestramento mask-tube per adottare il nostro metodo di doppia consistenza nel mask-tube. Sebbene il DC-SAM proposto sia principalmente progettato per le immagini, può essere esteso senza soluzione di continuità al dominio video con il supporto di SAM2. Considerando l'assenza di segmentazione in-context nel dominio video, abbiamo curato e costruito manualmente il primo benchmark da dataset esistenti di segmentazione video, denominato In-Context Video Object Segmentation (IC-VOS), per valutare meglio la capacità in-context del modello. Esperimenti estesi dimostrano che il nostro metodo raggiunge 55.5 (+1.4) mIoU su COCO-20i, 73.0 (+1.1) mIoU su PASCAL-5i e un punteggio J&F di 71.52 sul benchmark IC-VOS proposto. Il nostro codice sorgente e il benchmark sono disponibili su https://github.com/zaplm/DC-SAM.
English
Given a single labeled example, in-context segmentation aims to segment
corresponding objects. This setting, known as one-shot segmentation in few-shot
learning, explores the segmentation model's generalization ability and has been
applied to various vision tasks, including scene understanding and image/video
editing. While recent Segment Anything Models have achieved state-of-the-art
results in interactive segmentation, these approaches are not directly
applicable to in-context segmentation. In this work, we propose the Dual
Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2
for in-context segmentation of both images and videos. Our key insights are to
enhance the features of the SAM's prompt encoder in segmentation by providing
high-quality visual prompts. When generating a mask prior, we fuse the SAM
features to better align the prompt encoder. Then, we design a cycle-consistent
cross-attention on fused features and initial visual prompts. Next, a
dual-branch design is provided by using the discriminative positive and
negative prompts in the prompt encoder. Furthermore, we design a simple
mask-tube training strategy to adopt our proposed dual consistency method into
the mask tube. Although the proposed DC-SAM is primarily designed for images,
it can be seamlessly extended to the video domain with the support of SAM2.
Given the absence of in-context segmentation in the video domain, we manually
curate and construct the first benchmark from existing video segmentation
datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess
the in-context capability of the model. Extensive experiments demonstrate that
our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on
PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our
source code and benchmark are available at https://github.com/zaplm/DC-SAM.Summary
AI-Generated Summary