INT: Estrazione di Negativi Specifici dell'Istanza per la Segmentazione Promptable Generica del Compito
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
January 30, 2025
Autori: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI
Abstract
La segmentazione di immagini promptabile generica per compiti mira a ottenere la segmentazione di campioni diversi sotto una singola descrizione del compito utilizzando un solo prompt generico per il compito. I metodi attuali sfruttano le capacità di generalizzazione dei Modelli Visione-Linguaggio (VLM) per dedurre prompt specifici dell'istanza da questi prompt generici per guidare il processo di segmentazione. Tuttavia, quando i VLM faticano a generalizzare su alcune istanze di immagini, la previsione di prompt specifici dell'istanza diventa scarsa. Per risolvere questo problema, introduciamo il Mining Negativo Specifico dell'Istanza per la Segmentazione Promptabile Generica per Compiti (INT). L'idea chiave di INT è quella di ridurre adattivamente l'influenza della conoscenza precedente irrilevante (negativa) mentre si aumenta l'uso della conoscenza precedente più plausibile, selezionata dal mining negativo con maggiore contrasto, al fine di ottimizzare la generazione di prompt specifici dell'istanza. In particolare, INT è composto da due componenti: (1) generazione di prompt specifici dell'istanza, che filtra progressivamente le informazioni incorrette nella generazione del prompt; (2) generazione di maschere semantiche, che garantisce che la segmentazione di ciascuna istanza di immagine corrisponda correttamente alla semantica dei prompt specifici dell'istanza. INT è validato su sei set di dati, inclusi oggetti mimetizzati e immagini mediche, dimostrandone l'efficacia, la robustezza e la scalabilità.
English
Task-generic promptable image segmentation aims to achieve segmentation of
diverse samples under a single task description by utilizing only one
task-generic prompt. Current methods leverage the generalization capabilities
of Vision-Language Models (VLMs) to infer instance-specific prompts from these
task-generic prompts in order to guide the segmentation process. However, when
VLMs struggle to generalise to some image instances, predicting
instance-specific prompts becomes poor. To solve this problem, we introduce
Instance-specific Negative Mining for Task-Generic
Promptable Segmentation (INT). The key idea of INT is to adaptively
reduce the influence of irrelevant (negative) prior knowledge whilst to
increase the use the most plausible prior knowledge, selected by negative
mining with higher contrast, in order to optimise instance-specific prompts
generation. Specifically, INT consists of two components: (1) instance-specific
prompt generation, which progressively fliters out incorrect information in
prompt generation; (2) semantic mask generation, which ensures each image
instance segmentation matches correctly the semantics of the instance-specific
prompts. INT is validated on six datasets, including camouflaged objects and
medical images, demonstrating its effectiveness, robustness and scalability.Summary
AI-Generated Summary