ROSE: Aprimoramento de Segmentação Orientada à Recuperação

Resumo

Os modelos de segmentação existentes baseados em modelos de linguagem multimodal (MLLMs), como o LISA, frequentemente apresentam dificuldades com entidades novas ou emergentes devido à sua incapacidade de incorporar conhecimento atualizado. Para enfrentar este desafio, introduzimos a Tarefa de Segmentação de Entidades Emergentes (NEST), que se concentra na segmentação de (i) entidades novas que os MLLMs não conseguem reconhecer devido à sua ausência nos dados de treinamento, e (ii) entidades emergentes que existem no conhecimento do modelo, mas exigem informações externas atualizadas para um reconhecimento preciso. Para apoiar o estudo da NEST, construímos um benchmark NEST utilizando um pipeline automatizado que gera amostras de dados relacionados a notícias para avaliação abrangente. Adicionalmente, propomos o ROSE: Aprimoramento de Segmentação Orientado a Recuperação, uma estrutura plug-and-play projetada para aumentar qualquer modelo de segmentação baseado em MLLM. O ROSE compreende quatro componentes-chave. Primeiro, um módulo de Geração Aumentada por Recuperação na Internet é introduzido para empregar entradas multimodais fornecidas pelo usuário para recuperar informações da web em tempo real. Em seguida, um Aprimorador de Prompt Textual enriquece o modelo com informações atualizadas e amplo conhecimento de fundo, melhorando a capacidade de percepção do modelo para entidades emergentes. Além disso, é proposto um Aprimorador de Prompt Visual para compensar a falta de exposição dos MLLMs a entidades novas, aproveitando imagens obtidas da internet. Para manter a eficiência, um módulo WebSense é introduzido para decidir inteligentemente quando invocar mecanismos de recuperação com base na entrada do usuário. Resultados experimentais demonstram que o ROSE aumenta significativamente o desempenho no benchmark NEST, superando uma forte linha de base de recuperação baseada no Gemini-2.0 Flash em 19.2 pontos de gIoU.

English

Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.