INT: Mineração Negativa Específica da Instância para Segmentação Promptable Genérica de Tarefas
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
January 30, 2025
Autores: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI
Resumo
A segmentação de imagens acionável genérica de tarefa visa alcançar a segmentação de amostras diversas sob uma única descrição de tarefa, utilizando apenas um prompt genérico de tarefa. Os métodos atuais aproveitam as capacidades de generalização dos Modelos de Visão-Linguagem (VLMs) para inferir prompts específicos de instância a partir desses prompts genéricos de tarefa a fim de orientar o processo de segmentação. No entanto, quando os VLMs têm dificuldade em generalizar para algumas instâncias de imagem, a previsão de prompts específicos de instância se torna deficiente. Para resolver esse problema, introduzimos a Mineração Negativa Específica de Instância para Segmentação Acionável Genérica de Tarefa (INT). A ideia-chave do INT é reduzir adaptativamente a influência do conhecimento prévio irrelevante (negativo) enquanto aumenta o uso do conhecimento prévio mais plausível, selecionado pela mineração negativa com maior contraste, a fim de otimizar a geração de prompts específicos de instância. Especificamente, o INT é composto por dois componentes: (1) geração de prompt específico de instância, que filtra progressivamente informações incorretas na geração de prompts; (2) geração de máscara semântica, que garante que cada segmentação de instância de imagem corresponda corretamente à semântica dos prompts específicos de instância. O INT é validado em seis conjuntos de dados, incluindo objetos camuflados e imagens médicas, demonstrando sua eficácia, robustez e escalabilidade.
English
Task-generic promptable image segmentation aims to achieve segmentation of
diverse samples under a single task description by utilizing only one
task-generic prompt. Current methods leverage the generalization capabilities
of Vision-Language Models (VLMs) to infer instance-specific prompts from these
task-generic prompts in order to guide the segmentation process. However, when
VLMs struggle to generalise to some image instances, predicting
instance-specific prompts becomes poor. To solve this problem, we introduce
Instance-specific Negative Mining for Task-Generic
Promptable Segmentation (INT). The key idea of INT is to adaptively
reduce the influence of irrelevant (negative) prior knowledge whilst to
increase the use the most plausible prior knowledge, selected by negative
mining with higher contrast, in order to optimise instance-specific prompts
generation. Specifically, INT consists of two components: (1) instance-specific
prompt generation, which progressively fliters out incorrect information in
prompt generation; (2) semantic mask generation, which ensures each image
instance segmentation matches correctly the semantics of the instance-specific
prompts. INT is validated on six datasets, including camouflaged objects and
medical images, demonstrating its effectiveness, robustness and scalability.Summary
AI-Generated Summary