ROSE: Retrieval-Gerichte Segmentatieverbetering

Samenvatting

Bestaande segmentatiemodellen op basis van multimodale grote taalmodellen (MLLM's), zoals LISA, hebben vaak moeite met nieuwe of opkomende entiteiten vanwege hun onvermogen om actuele kennis te integreren. Om deze uitdaging aan te pakken, introduceren we de Novel Emerging Segmentation Task (NEST), die zich richt op het segmenteren van (i) nieuwe entiteiten die MLLM's niet herkennen omdat ze ontbreken in de trainingsdata, en (ii) opkomende entiteiten die wel binnen de kennis van het model vallen, maar actuele externe informatie vereisen voor accurate herkenning. Om onderzoek naar NEST te ondersteunen, bouwen we een NEST-benchmark met een geautomatiseerde pijplijn die nieuwsgerelateerde datamonsters genereert voor uitgebreide evaluatie. Daarnaast stellen we ROSE voor: Retrieval-Oriented Segmentation Enhancement, een plug-and-play raamwerk ontworpen om op MLLM gebaseerde segmentatiemodellen te versterken. ROSE bestaat uit vier kerncomponenten. Ten eerste wordt een Internet Retrieval-Augmented Generation-module geïntroduceerd die gebruikmaakt van door de gebruiker aangeleverde multimodale invoer om realtime webinformatie op te halen. Vervolgens verrijkt een Textual Prompt Enhancer het model met actuele informatie en rijke achtergrondkennis, wat het waarnemingsvermogen van het model voor opkomende entiteiten verbetert. Verder wordt een Visual Prompt Enhancer voorgesteld om het gebrek aan blootstelling van MLLM's aan nieuwe entiteiten te compenseren door gebruik te maken van via internet verkregen afbeeldingen. Om de efficiëntie te behouden, wordt een WebSense-module geïntroduceerd die intelligent beslist wanneer retrieval-mechanismen moeten worden geactiveerd op basis van gebruikersinvoer. Experimentele resultaten tonen aan dat ROSE de prestaties op de NEST-benchmark aanzienlijk verbetert en een sterke op Gemini-2.0 Flash gebaseerde retrieval-baseline met 19.2 gIoU overtreft.

English

Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.