INT : Exploration des négatifs spécifiques à l'instance pour la segmentation promptable générique de tâches
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
January 30, 2025
Auteurs: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI
Résumé
La segmentation d'image promptable générique de tâche vise à réaliser la segmentation d'échantillons divers sous une seule description de tâche en utilisant uniquement un prompt générique de tâche. Les méthodes actuelles exploitent les capacités de généralisation des Modèles Vision-Language (VLM) pour déduire des prompts spécifiques à chaque instance à partir de ces prompts génériques de tâche afin de guider le processus de segmentation. Cependant, lorsque les VLM ont du mal à généraliser à certaines instances d'image, la prédiction de prompts spécifiques à chaque instance devient médiocre. Pour résoudre ce problème, nous introduisons le Minage Négatif Spécifique à l'Instance pour la Segmentation Promptable Générique de Tâche (INT). L'idée clé de l'INT est de réduire de manière adaptative l'influence des connaissances préalables non pertinentes (négatives) tout en augmentant l'utilisation des connaissances préalables les plus plausibles, sélectionnées par le minage négatif avec un contraste plus élevé, afin d'optimiser la génération de prompts spécifiques à chaque instance. Plus précisément, l'INT se compose de deux composants : (1) la génération de prompts spécifiques à chaque instance, qui filtre progressivement les informations incorrectes dans la génération de prompts ; (2) la génération de masque sémantique, qui garantit que la segmentation de chaque instance d'image correspond correctement à la sémantique des prompts spécifiques à chaque instance. L'INT est validé sur six ensembles de données, comprenant des objets camouflés et des images médicales, démontrant son efficacité, sa robustesse et sa scalabilité.
English
Task-generic promptable image segmentation aims to achieve segmentation of
diverse samples under a single task description by utilizing only one
task-generic prompt. Current methods leverage the generalization capabilities
of Vision-Language Models (VLMs) to infer instance-specific prompts from these
task-generic prompts in order to guide the segmentation process. However, when
VLMs struggle to generalise to some image instances, predicting
instance-specific prompts becomes poor. To solve this problem, we introduce
Instance-specific Negative Mining for Task-Generic
Promptable Segmentation (INT). The key idea of INT is to adaptively
reduce the influence of irrelevant (negative) prior knowledge whilst to
increase the use the most plausible prior knowledge, selected by negative
mining with higher contrast, in order to optimise instance-specific prompts
generation. Specifically, INT consists of two components: (1) instance-specific
prompt generation, which progressively fliters out incorrect information in
prompt generation; (2) semantic mask generation, which ensures each image
instance segmentation matches correctly the semantics of the instance-specific
prompts. INT is validated on six datasets, including camouflaged objects and
medical images, demonstrating its effectiveness, robustness and scalability.Summary
AI-Generated Summary