ChatPaper.aiChatPaper

INT : Exploration des négatifs spécifiques à l'instance pour la segmentation promptable générique de tâches

INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

January 30, 2025
Auteurs: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI

Résumé

La segmentation d'image promptable générique de tâche vise à réaliser la segmentation d'échantillons divers sous une seule description de tâche en utilisant uniquement un prompt générique de tâche. Les méthodes actuelles exploitent les capacités de généralisation des Modèles Vision-Language (VLM) pour déduire des prompts spécifiques à chaque instance à partir de ces prompts génériques de tâche afin de guider le processus de segmentation. Cependant, lorsque les VLM ont du mal à généraliser à certaines instances d'image, la prédiction de prompts spécifiques à chaque instance devient médiocre. Pour résoudre ce problème, nous introduisons le Minage Négatif Spécifique à l'Instance pour la Segmentation Promptable Générique de Tâche (INT). L'idée clé de l'INT est de réduire de manière adaptative l'influence des connaissances préalables non pertinentes (négatives) tout en augmentant l'utilisation des connaissances préalables les plus plausibles, sélectionnées par le minage négatif avec un contraste plus élevé, afin d'optimiser la génération de prompts spécifiques à chaque instance. Plus précisément, l'INT se compose de deux composants : (1) la génération de prompts spécifiques à chaque instance, qui filtre progressivement les informations incorrectes dans la génération de prompts ; (2) la génération de masque sémantique, qui garantit que la segmentation de chaque instance d'image correspond correctement à la sémantique des prompts spécifiques à chaque instance. L'INT est validé sur six ensembles de données, comprenant des objets camouflés et des images médicales, démontrant son efficacité, sa robustesse et sa scalabilité.
English
Task-generic promptable image segmentation aims to achieve segmentation of diverse samples under a single task description by utilizing only one task-generic prompt. Current methods leverage the generalization capabilities of Vision-Language Models (VLMs) to infer instance-specific prompts from these task-generic prompts in order to guide the segmentation process. However, when VLMs struggle to generalise to some image instances, predicting instance-specific prompts becomes poor. To solve this problem, we introduce Instance-specific Negative Mining for Task-Generic Promptable Segmentation (INT). The key idea of INT is to adaptively reduce the influence of irrelevant (negative) prior knowledge whilst to increase the use the most plausible prior knowledge, selected by negative mining with higher contrast, in order to optimise instance-specific prompts generation. Specifically, INT consists of two components: (1) instance-specific prompt generation, which progressively fliters out incorrect information in prompt generation; (2) semantic mask generation, which ensures each image instance segmentation matches correctly the semantics of the instance-specific prompts. INT is validated on six datasets, including camouflaged objects and medical images, demonstrating its effectiveness, robustness and scalability.

Summary

AI-Generated Summary

PDF32February 3, 2025