INT: Instantie-Specifieke Negatieve Mijnbouw voor Taak-Generieke Promptbare Segmentatie
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation
January 30, 2025
Auteurs: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI
Samenvatting
Taakgenerieke aanstuurbare beeldsegmentatie streeft ernaar om segmentatie van diverse monsters te bereiken onder een enkele taakbeschrijving door slechts één taakgenerieke aanwijzing te gebruiken. Huidige methoden maken gebruik van de generalisatiecapaciteiten van Vision-Language Modellen (VLM's) om instantiespecifieke aanwijzingen af te leiden van deze taakgenerieke aanwijzingen om het segmentatieproces te begeleiden. Echter, wanneer VLM's moeite hebben met generaliseren naar sommige beeldinstanties, wordt de voorspelling van instantiespecifieke aanwijzingen zwak. Om dit probleem op te lossen, introduceren we Instantiespecifieke Negatieve Mijnbouw voor Taakgenerieke Aanstuurbare Segmentatie (INT). Het belangrijkste idee van INT is om adaptief de invloed van irrelevante (negatieve) voorkennis te verminderen, terwijl het gebruik van de meest plausibele voorkennis, geselecteerd door negatieve mijnbouw met hoger contrast, wordt verhoogd om de generatie van instantiespecifieke aanwijzingen te optimaliseren. Concreet bestaat INT uit twee componenten: (1) generatie van instantiespecifieke aanwijzingen, die geleidelijk onjuiste informatie filtert bij de generatie van aanwijzingen; (2) generatie van semantische maskers, die ervoor zorgt dat elke beeldinstantiesegmentatie correct overeenkomt met de semantiek van de instantiespecifieke aanwijzingen. INT wordt gevalideerd op zes datasets, waaronder gecamoufleerde objecten en medische beelden, waarbij de effectiviteit, robuustheid en schaalbaarheid ervan worden aangetoond.
English
Task-generic promptable image segmentation aims to achieve segmentation of
diverse samples under a single task description by utilizing only one
task-generic prompt. Current methods leverage the generalization capabilities
of Vision-Language Models (VLMs) to infer instance-specific prompts from these
task-generic prompts in order to guide the segmentation process. However, when
VLMs struggle to generalise to some image instances, predicting
instance-specific prompts becomes poor. To solve this problem, we introduce
Instance-specific Negative Mining for Task-Generic
Promptable Segmentation (INT). The key idea of INT is to adaptively
reduce the influence of irrelevant (negative) prior knowledge whilst to
increase the use the most plausible prior knowledge, selected by negative
mining with higher contrast, in order to optimise instance-specific prompts
generation. Specifically, INT consists of two components: (1) instance-specific
prompt generation, which progressively fliters out incorrect information in
prompt generation; (2) semantic mask generation, which ensures each image
instance segmentation matches correctly the semantics of the instance-specific
prompts. INT is validated on six datasets, including camouflaged objects and
medical images, demonstrating its effectiveness, robustness and scalability.Summary
AI-Generated Summary