ChatPaper.aiChatPaper

INST: Instanzspezifisches negatives Mining für aufgabenunabhängige promptfähige Segmentierung

INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

January 30, 2025
Autoren: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI

Zusammenfassung

Die promptbare Bildsegmentierung, die aufgabenübergreifend ist, zielt darauf ab, die Segmentierung verschiedener Proben unter einer einzigen Aufgabenbeschreibung zu erreichen, indem nur ein aufgabenübergreifender Prompt verwendet wird. Aktuelle Methoden nutzen die Verallgemeinerungsfähigkeiten von Vision-Language-Modellen (VLMs) aus, um instanzspezifische Prompts aus diesen aufgabenübergreifenden Prompts abzuleiten, um den Segmentierungsprozess zu steuern. Wenn VLMs jedoch Schwierigkeiten haben, sich auf einige Bildinstanzen zu verallgemeinern, wird die Vorhersage von instanzspezifischen Prompts schlecht. Um dieses Problem zu lösen, führen wir das Instanzspezifische Negativ-Mining für Aufgabenübergreifende Promptable Segmentierung (INT) ein. Die Schlüsselidee von INT besteht darin, den Einfluss irrelevanter (negativer) Vorwissens adaptiv zu reduzieren, während gleichzeitig das plausibelste Vorwissen, das durch Negativ-Mining mit höherem Kontrast ausgewählt wird, verstärkt genutzt wird, um die Generierung instanzspezifischer Prompts zu optimieren. Konkret besteht INT aus zwei Komponenten: (1) Generierung instanzspezifischer Prompts, die schrittweise falsche Informationen in der Promptgenerierung herausfiltern; (2) Generierung semantischer Masken, die sicherstellen, dass die Segmentierung jeder Bildinstanz korrekt mit der Semantik der instanzspezifischen Prompts übereinstimmt. INT wird auf sechs Datensätzen validiert, darunter getarnte Objekte und medizinische Bilder, was seine Wirksamkeit, Robustheit und Skalierbarkeit zeigt.
English
Task-generic promptable image segmentation aims to achieve segmentation of diverse samples under a single task description by utilizing only one task-generic prompt. Current methods leverage the generalization capabilities of Vision-Language Models (VLMs) to infer instance-specific prompts from these task-generic prompts in order to guide the segmentation process. However, when VLMs struggle to generalise to some image instances, predicting instance-specific prompts becomes poor. To solve this problem, we introduce Instance-specific Negative Mining for Task-Generic Promptable Segmentation (INT). The key idea of INT is to adaptively reduce the influence of irrelevant (negative) prior knowledge whilst to increase the use the most plausible prior knowledge, selected by negative mining with higher contrast, in order to optimise instance-specific prompts generation. Specifically, INT consists of two components: (1) instance-specific prompt generation, which progressively fliters out incorrect information in prompt generation; (2) semantic mask generation, which ensures each image instance segmentation matches correctly the semantics of the instance-specific prompts. INT is validated on six datasets, including camouflaged objects and medical images, demonstrating its effectiveness, robustness and scalability.

Summary

AI-Generated Summary

PDF32February 3, 2025