ChatPaper.aiChatPaper

INT: タスクに汎用的なプロンプト可能セグメンテーションのためのインスタンス固有のネガティブマイニング

INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

January 30, 2025
著者: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI

要旨

タスクに依存しないプロンプト可能な画像セグメンテーションは、単一のタスク記述の下でさまざまなサンプルのセグメンテーションを達成することを目指し、1 つのタスクに依存しないプロンプトのみを利用します。現在の手法は、ビジョン・ランゲージ・モデル(VLMs)の一般化能力を活用して、これらのタスクに依存しないプロンプトからインスタンス固有のプロンプトを推論し、セグメンテーションプロセスをガイドします。しかし、VLMs が一部の画像インスタンスに一般化するのに苦労すると、インスタンス固有のプロンプトの予測が悪化します。この問題を解決するために、タスクに依存しないプロンプト可能セグメンテーションのためのインスタンス固有のネガティブマイニング(INT)を導入します。INTの主要なアイデアは、不適切な(ネガティブ)事前知識の影響を適応的に減少させる一方で、ネガティブマイニングによって選択された最も妥当な事前知識を使用して、インスタンス固有のプロンプト生成を最適化することです。具体的には、INT は次の 2 つのコンポーネントで構成されています:(1)インスタンス固有のプロンプト生成、プロンプト生成において不正確な情報を段階的に取り除く;(2)セマンティックマスク生成、各画像インスタンスのセグメンテーションがインスタンス固有のプロンプトのセマンティクスと正しく一致することを確認します。INT は、迷彩オブジェクトや医療画像を含む 6 つのデータセットで検証され、その効果的で堅牢でスケーラブルな性能が示されています。
English
Task-generic promptable image segmentation aims to achieve segmentation of diverse samples under a single task description by utilizing only one task-generic prompt. Current methods leverage the generalization capabilities of Vision-Language Models (VLMs) to infer instance-specific prompts from these task-generic prompts in order to guide the segmentation process. However, when VLMs struggle to generalise to some image instances, predicting instance-specific prompts becomes poor. To solve this problem, we introduce Instance-specific Negative Mining for Task-Generic Promptable Segmentation (INT). The key idea of INT is to adaptively reduce the influence of irrelevant (negative) prior knowledge whilst to increase the use the most plausible prior knowledge, selected by negative mining with higher contrast, in order to optimise instance-specific prompts generation. Specifically, INT consists of two components: (1) instance-specific prompt generation, which progressively fliters out incorrect information in prompt generation; (2) semantic mask generation, which ensures each image instance segmentation matches correctly the semantics of the instance-specific prompts. INT is validated on six datasets, including camouflaged objects and medical images, demonstrating its effectiveness, robustness and scalability.

Summary

AI-Generated Summary

PDF32February 3, 2025