INT: Minería Negativa Específica de la Instancia para la Segmentación Promptable Genérica de Tareas
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
January 30, 2025
Autores: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI
Resumen
La segmentación de imágenes con indicaciones genéricas adaptables tiene como objetivo lograr la segmentación de muestras diversas bajo una única descripción de tarea mediante el uso de una sola indicación genérica. Los métodos actuales aprovechan las capacidades de generalización de los Modelos Visión-Lenguaje (VLMs) para inferir indicaciones específicas de instancia a partir de estas indicaciones genéricas de tarea con el fin de guiar el proceso de segmentación. Sin embargo, cuando los VLMs tienen dificultades para generalizar a algunas instancias de imagen, la predicción de indicaciones específicas de instancia es deficiente. Para resolver este problema, presentamos la Minería Negativa Específica de Instancias para la Segmentación con Indicaciones Genéricas de Tarea (INT). La idea clave de INT es reducir de forma adaptativa la influencia de conocimientos previos irrelevantes (negativos) mientras se aumenta el uso de los conocimientos previos más plausibles, seleccionados mediante minería negativa con mayor contraste, con el fin de optimizar la generación de indicaciones específicas de instancia. Específicamente, INT consta de dos componentes: (1) generación de indicaciones específicas de instancia, que filtra progresivamente la información incorrecta en la generación de indicaciones; (2) generación de máscara semántica, que garantiza que cada segmentación de instancia de imagen coincida correctamente con la semántica de las indicaciones específicas de instancia. INT se valida en seis conjuntos de datos, que incluyen objetos camuflados e imágenes médicas, demostrando su efectividad, robustez y escalabilidad.
English
Task-generic promptable image segmentation aims to achieve segmentation of
diverse samples under a single task description by utilizing only one
task-generic prompt. Current methods leverage the generalization capabilities
of Vision-Language Models (VLMs) to infer instance-specific prompts from these
task-generic prompts in order to guide the segmentation process. However, when
VLMs struggle to generalise to some image instances, predicting
instance-specific prompts becomes poor. To solve this problem, we introduce
Instance-specific Negative Mining for Task-Generic
Promptable Segmentation (INT). The key idea of INT is to adaptively
reduce the influence of irrelevant (negative) prior knowledge whilst to
increase the use the most plausible prior knowledge, selected by negative
mining with higher contrast, in order to optimise instance-specific prompts
generation. Specifically, INT consists of two components: (1) instance-specific
prompt generation, which progressively fliters out incorrect information in
prompt generation; (2) semantic mask generation, which ensures each image
instance segmentation matches correctly the semantics of the instance-specific
prompts. INT is validated on six datasets, including camouflaged objects and
medical images, demonstrating its effectiveness, robustness and scalability.Summary
AI-Generated Summary