ROSE: Mejora de Segmentación Orientada a Recuperación

Resumen

Los modelos de segmentación existentes basados en modelos de lenguaje multimodal (MLLM), como LISA, a menudo presentan dificultades con entidades novedosas o emergentes debido a su incapacidad para incorporar conocimiento actualizado. Para abordar este desafío, presentamos la Tarea de Segmentación de Entidades Novedosas y Emergentes (NEST), que se centra en segmentar (i) entidades novedosas que los MLLM no logran reconocer debido a su ausencia en los datos de entrenamiento, y (ii) entidades emergentes que existen dentro del conocimiento del modelo pero requieren información externa actualizada para su reconocimiento preciso. Para apoyar el estudio de NEST, construimos un benchmark NEST utilizando una canalización automatizada que genera muestras de datos relacionados con noticias para una evaluación integral. Adicionalmente, proponemos ROSE: Mejora de Segmentación Orientada a Recuperación, un marco plug-and-play diseñado para aumentar cualquier modelo de segmentación basado en MLLM. ROSE comprende cuatro componentes clave. Primero, se introduce un módulo de Generación Aumentada por Recuperación de Internet para emplear entradas multimodales proporcionadas por el usuario y recuperar información web en tiempo real. Luego, un Mejorador de Indicaciones Textuales enriquece al modelo con información actualizada y conocimiento de fondo exhaustivo, mejorando la capacidad de percepción del modelo para entidades emergentes. Además, se propone un Mejorador de Indicaciones Visuales para compensar la falta de exposición de los MLLM a entidades novedosas aprovechando imágenes obtenidas de internet. Para mantener la eficiencia, se introduce un módulo WebSense para decidir inteligentemente cuándo invocar mecanismos de recuperación basándose en la entrada del usuario. Los resultados experimentales demuestran que ROSE incrementa significativamente el rendimiento en el benchmark NEST, superando en 19.2 puntos de gIoU a una sólida línea base de recuperación basada en Gemini-2.0 Flash.

English

Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.