ChatPaper.aiChatPaper

Интс: Майнинг отрицательных примеров для задачи-независимой сегментации с возможностью запроса.

INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

January 30, 2025
Авторы: Jian Hu, Zixu Cheng, Shaogang Gong
cs.AI

Аннотация

Задача общей сегментации изображений с возможностью запроса направлена на достижение сегментации разнообразных образцов в рамках одного описания задачи с использованием только одного общего запроса. Существующие методы используют возможности обобщения моделей видео-языка (VLMs) для вывода индивидуальных запросов из этих общих запросов с целью направлять процесс сегментации. Однако, когда модели видео-языка испытывают трудности с обобщением на некоторые изображения, предсказание индивидуальных запросов становится недостаточным. Для решения этой проблемы мы представляем Индивидуальное Негативное Майнинг для Общей Сегментации с возможностью запроса (INT). Основная идея INT заключается в адаптивном снижении влияния несущественных (негативных) предварительных знаний, а также в увеличении использования наиболее правдоподобных предварительных знаний, выбранных с помощью негативного майнинга с более высоким контрастом, для оптимизации генерации индивидуальных запросов. Конкретно, INT состоит из двух компонентов: (1) генерация индивидуальных запросов, которая постепенно фильтрует неверную информацию при генерации запросов; (2) генерация семантической маски, которая гарантирует, что каждая сегментация изображения соответствует семантике индивидуальных запросов. INT проверяется на шести наборах данных, включая замаскированные объекты и медицинские изображения, демонстрируя его эффективность, устойчивость и масштабируемость.
English
Task-generic promptable image segmentation aims to achieve segmentation of diverse samples under a single task description by utilizing only one task-generic prompt. Current methods leverage the generalization capabilities of Vision-Language Models (VLMs) to infer instance-specific prompts from these task-generic prompts in order to guide the segmentation process. However, when VLMs struggle to generalise to some image instances, predicting instance-specific prompts becomes poor. To solve this problem, we introduce Instance-specific Negative Mining for Task-Generic Promptable Segmentation (INT). The key idea of INT is to adaptively reduce the influence of irrelevant (negative) prior knowledge whilst to increase the use the most plausible prior knowledge, selected by negative mining with higher contrast, in order to optimise instance-specific prompts generation. Specifically, INT consists of two components: (1) instance-specific prompt generation, which progressively fliters out incorrect information in prompt generation; (2) semantic mask generation, which ensures each image instance segmentation matches correctly the semantics of the instance-specific prompts. INT is validated on six datasets, including camouflaged objects and medical images, demonstrating its effectiveness, robustness and scalability.

Summary

AI-Generated Summary

PDF32February 3, 2025