ROSE: Улучшение сегментации для поиска

Аннотация

Существующие модели сегментации на основе мультимодальных больших языковых моделей (MLLM), такие как LISA, часто сталкиваются с трудностями при работе с новыми или возникающими объектами из-за неспособности учитывать актуальные знания. Для решения этой проблемы мы представляем задачу сегментации новых и возникающих объектов (Novel Emerging Segmentation Task, NEST), которая фокусируется на сегментации (i) новых объектов, которые MLLM не распознают из-за их отсутствия в обучающих данных, и (ii) возникающих объектов, которые существуют в знаниях модели, но требуют привлечения актуальной внешней информации для точного распознавания. Для поддержки исследований в области NEST мы создали эталонный набор данных NEST с использованием автоматизированного конвейера, генерирующего новостные данные для всесторонней оценки. Кроме того, мы предлагаем ROSE: Retrieval-Oriented Segmentation Enhancement — модульную платформу, предназначенную для улучшения любой модели сегментации на основе MLLM. ROSE состоит из четырех ключевых компонентов. Во-первых, представлен модуль генерации с интернет-поисковым усилением (Internet Retrieval-Augmented Generation), который использует предоставленные пользователем мультимодальные входные данные для получения информации из интернета в реальном времени. Затем модуль улучшения текстовых промтов (Textual Prompt Enhancer) обогащает модель актуальной информацией и обширными фоновыми знаниями, повышая ее способность к восприятию возникающих объектов. Далее, предлагается модуль улучшения визуальных промтов (Visual Prompt Enhancer), который компенсирует недостаточную знакомость MLLM с новыми объектами за счет использования изображений из интернета. Для поддержания эффективности представлен модуль WebSense, который интеллектуально определяет необходимость активации механизмов поиска на основе пользовательского ввода. Результаты экспериментов показывают, что ROSE значительно повышает производительность на эталоне NEST, превосходя сильный базовый подход на основе Gemini-2.0 Flash с поиском на 19.2 пункта по метрике gIoU.

English

Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.