ChatPaper.aiChatPaper

DC-SAM: Segmentación en contexto de cualquier elemento en imágenes y videos mediante consistencia dual

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

April 16, 2025
Autores: Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang
cs.AI

Resumen

Dado un único ejemplo etiquetado, la segmentación en contexto tiene como objetivo segmentar los objetos correspondientes. Este escenario, conocido como segmentación one-shot en el aprendizaje de pocos ejemplos, explora la capacidad de generalización del modelo de segmentación y se ha aplicado a diversas tareas de visión, incluyendo la comprensión de escenas y la edición de imágenes/videos. Aunque los recientes modelos Segment Anything (SAM) han logrado resultados de vanguardia en la segmentación interactiva, estos enfoques no son directamente aplicables a la segmentación en contexto. En este trabajo, proponemos el método Dual Consistency SAM (DC-SAM) basado en ajuste de prompts para adaptar SAM y SAM2 a la segmentación en contexto tanto de imágenes como de videos. Nuestras ideas clave son mejorar las características del codificador de prompts de SAM en la segmentación proporcionando prompts visuales de alta calidad. Al generar una máscara previa, fusionamos las características de SAM para alinear mejor el codificador de prompts. Luego, diseñamos una atención cruzada cíclicamente consistente sobre las características fusionadas y los prompts visuales iniciales. A continuación, se proporciona un diseño de doble rama utilizando los prompts positivos y negativos discriminativos en el codificador de prompts. Además, diseñamos una estrategia simple de entrenamiento de máscara-tubo para adoptar nuestro método de doble consistencia en el tubo de máscaras. Aunque el DC-SAM propuesto está principalmente diseñado para imágenes, puede extenderse sin problemas al dominio de video con el soporte de SAM2. Dada la ausencia de segmentación en contexto en el dominio de video, hemos creado y construido manualmente el primer benchmark a partir de conjuntos de datos existentes de segmentación de video, denominado In-Context Video Object Segmentation (IC-VOS), para evaluar mejor la capacidad en contexto del modelo. Experimentos extensivos demuestran que nuestro método alcanza un 55.5 (+1.4) mIoU en COCO-20i, un 73.0 (+1.1) mIoU en PASCAL-5i, y una puntuación J&F de 71.52 en el benchmark IC-VOS propuesto. Nuestro código fuente y benchmark están disponibles en https://github.com/zaplm/DC-SAM.
English
Given a single labeled example, in-context segmentation aims to segment corresponding objects. This setting, known as one-shot segmentation in few-shot learning, explores the segmentation model's generalization ability and has been applied to various vision tasks, including scene understanding and image/video editing. While recent Segment Anything Models have achieved state-of-the-art results in interactive segmentation, these approaches are not directly applicable to in-context segmentation. In this work, we propose the Dual Consistency SAM (DC-SAM) method based on prompt-tuning to adapt SAM and SAM2 for in-context segmentation of both images and videos. Our key insights are to enhance the features of the SAM's prompt encoder in segmentation by providing high-quality visual prompts. When generating a mask prior, we fuse the SAM features to better align the prompt encoder. Then, we design a cycle-consistent cross-attention on fused features and initial visual prompts. Next, a dual-branch design is provided by using the discriminative positive and negative prompts in the prompt encoder. Furthermore, we design a simple mask-tube training strategy to adopt our proposed dual consistency method into the mask tube. Although the proposed DC-SAM is primarily designed for images, it can be seamlessly extended to the video domain with the support of SAM2. Given the absence of in-context segmentation in the video domain, we manually curate and construct the first benchmark from existing video segmentation datasets, named In-Context Video Object Segmentation (IC-VOS), to better assess the in-context capability of the model. Extensive experiments demonstrate that our method achieves 55.5 (+1.4) mIoU on COCO-20i, 73.0 (+1.1) mIoU on PASCAL-5i, and a J&F score of 71.52 on the proposed IC-VOS benchmark. Our source code and benchmark are available at https://github.com/zaplm/DC-SAM.
PDF72April 28, 2025