INT: Instantie-Specifieke Negatieve Mijnbouw voor Taak-Generieke Promptbare Segmentatie

Samenvatting

Taakgenerieke aanstuurbare beeldsegmentatie streeft ernaar om segmentatie van diverse monsters te bereiken onder een enkele taakbeschrijving door slechts één taakgenerieke aanwijzing te gebruiken. Huidige methoden maken gebruik van de generalisatiecapaciteiten van Vision-Language Modellen (VLM's) om instantiespecifieke aanwijzingen af te leiden van deze taakgenerieke aanwijzingen om het segmentatieproces te begeleiden. Echter, wanneer VLM's moeite hebben met generaliseren naar sommige beeldinstanties, wordt de voorspelling van instantiespecifieke aanwijzingen zwak. Om dit probleem op te lossen, introduceren we Instantiespecifieke Negatieve Mijnbouw voor Taakgenerieke Aanstuurbare Segmentatie (INT). Het belangrijkste idee van INT is om adaptief de invloed van irrelevante (negatieve) voorkennis te verminderen, terwijl het gebruik van de meest plausibele voorkennis, geselecteerd door negatieve mijnbouw met hoger contrast, wordt verhoogd om de generatie van instantiespecifieke aanwijzingen te optimaliseren. Concreet bestaat INT uit twee componenten: (1) generatie van instantiespecifieke aanwijzingen, die geleidelijk onjuiste informatie filtert bij de generatie van aanwijzingen; (2) generatie van semantische maskers, die ervoor zorgt dat elke beeldinstantiesegmentatie correct overeenkomt met de semantiek van de instantiespecifieke aanwijzingen. INT wordt gevalideerd op zes datasets, waaronder gecamoufleerde objecten en medische beelden, waarbij de effectiviteit, robuustheid en schaalbaarheid ervan worden aangetoond.

English

Task-generic promptable image segmentation aims to achieve segmentation of diverse samples under a single task description by utilizing only one task-generic prompt. Current methods leverage the generalization capabilities of Vision-Language Models (VLMs) to infer instance-specific prompts from these task-generic prompts in order to guide the segmentation process. However, when VLMs struggle to generalise to some image instances, predicting instance-specific prompts becomes poor. To solve this problem, we introduce Instance-specific Negative Mining for Task-Generic Promptable Segmentation (INT). The key idea of INT is to adaptively reduce the influence of irrelevant (negative) prior knowledge whilst to increase the use the most plausible prior knowledge, selected by negative mining with higher contrast, in order to optimise instance-specific prompts generation. Specifically, INT consists of two components: (1) instance-specific prompt generation, which progressively fliters out incorrect information in prompt generation; (2) semantic mask generation, which ensures each image instance segmentation matches correctly the semantics of the instance-specific prompts. INT is validated on six datasets, including camouflaged objects and medical images, demonstrating its effectiveness, robustness and scalability.

INT: Instantie-Specifieke Negatieve Mijnbouw voor Taak-Generieke Promptbare Segmentatie

INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

Samenvatting

Support