DC-SAM: Segmentação em Contexto de Qualquer Coisa em Imagens e Vídeos via Dupla Consistência
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency
April 16, 2025
Autores: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
cs.AI
Resumo
Dado um único exemplo rotulado, a segmentação em contexto visa segmentar objetos correspondentes. Esse cenário, conhecido como segmentação one-shot no aprendizado few-shot, explora a capacidade de generalização do modelo de segmentação e tem sido aplicado a diversas tarefas de visão, incluindo compreensão de cena e edição de imagens/vídeos. Embora os recentes Segment Anything Models (SAM) tenham alcançado resultados de ponta em segmentação interativa, essas abordagens não são diretamente aplicáveis à segmentação em contexto. Neste trabalho, propomos o método Dual Consistency SAM (DC-SAM), baseado em prompt-tuning, para adaptar o SAM e o SAM2 à segmentação em contexto de imagens e vídeos. Nossas principais ideias são aprimorar as características do codificador de prompts do SAM na segmentação, fornecendo prompts visuais de alta qualidade. Ao gerar uma máscara prévia, fundimos as características do SAM para melhor alinhar o codificador de prompts. Em seguida, projetamos uma atenção cruzada consistente em ciclo sobre as características fundidas e os prompts visuais iniciais. Depois, fornecemos um design de ramificação dupla, utilizando prompts positivos e negativos discriminativos no codificador de prompts. Além disso, projetamos uma estratégia simples de treinamento de máscara-tubo para adotar nosso método de consistência dupla no tubo de máscara. Embora o DC-SAM proposto seja principalmente projetado para imagens, ele pode ser estendido de forma contínua ao domínio de vídeos com o suporte do SAM2. Dada a ausência de segmentação em contexto no domínio de vídeos, curamos e construímos manualmente o primeiro benchmark a partir de conjuntos de dados existentes de segmentação de vídeos, denominado In-Context Video Object Segmentation (IC-VOS), para melhor avaliar a capacidade em contexto do modelo. Experimentos extensivos demonstram que nosso método alcança 55,5 (+1,4) mIoU no COCO-20i, 73,0 (+1,1) mIoU no PASCAL-5i e uma pontuação J&F de 71,52 no benchmark IC-VOS proposto. Nosso código-fonte e benchmark estão disponíveis em https://github.com/zaplm/DC-SAM.
English
Given a single labeled example, in-context segmentation aims to segment
corresponding objects. This setting, known as one-shot segmentation in few-shot
learning, explores the segmentation model's generalization ability and has been
applied to various vision tasks, including scene understanding and image/video
editing. While recent Segment Anything Models have achieved state-of-the-art
results in interactive segmentation, these approaches are not directly
applicable to in-context segmentation. In this work, we propose the Dual
Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2
for in-context segmentation of both images and videos. Our key insights are to
enhance the features of the SAM's prompt encoder in segmentation by providing
high-quality visual prompts. When generating a mask prior, we fuse the SAM
features to better align the prompt encoder. Then, we design a cycle-consistent
cross-attention on fused features and initial visual prompts. Next, a
dual-branch design is provided by using the discriminative positive and
negative prompts in the prompt encoder. Furthermore, we design a simple
mask-tube training strategy to adopt our proposed dual consistency method into
the mask tube. Although the proposed DC-SAM is primarily designed for images,
it can be seamlessly extended to the video domain with the support of SAM2.
Given the absence of in-context segmentation in the video domain, we manually
curate and construct the first benchmark from existing video segmentation
datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess
the in-context capability of the model. Extensive experiments demonstrate that
our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on
PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our
source code and benchmark are available at https://github.com/zaplm/DC-SAM.Summary
AI-Generated Summary