ROSE: Retrievalorientierte Segmentierungsverbesserung

Zusammenfassung

Bestehende Segmentierungsmodelle auf Basis multimodaler großer Sprachmodelle (MLLMs), wie LISA, haben oft Schwierigkeiten mit neuartigen oder aufkommenden Entitäten, da sie keine aktuellen Kenntnisse integrieren können. Um diese Herausforderung zu bewältigen, führen wir die Novel Emerging Segmentation Task (NEST) ein, die sich auf die Segmentierung (i) neuartiger Entitäten konzentriert, die MLLMs aufgrund ihrer Abwesenheit in den Trainingsdaten nicht erkennen können, und (ii) aufkommender Entitäten, die im Wissen des Modells existieren, aber aktuelle externe Informationen für eine genaue Erkennung erfordern. Um die Erforschung von NEST zu unterstützen, erstellen wir einen NEST-Benchmark mittels einer automatisierten Pipeline, die nachrichtenbezogene Datenproben für eine umfassende Evaluation generiert. Zusätzlich schlagen wir ROSE vor: Retrieval-Oriented Segmentation Enhancement, ein Plug-and-Play-Framework, das darauf ausgelegt ist, jedes MLLM-basierte Segmentierungsmodell zu erweitern. ROSE umfasst vier Schlüsselkomponenten. Zunächst wird ein Internet Retrieval-Augmented Generation-Modul eingeführt, das benutzergesteuerte multimodale Eingaben nutzt, um Echtzeit-Informationen aus dem Web abzurufen. Anschließend bereichert ein Textual Prompt Enhancer das Modell mit aktuellen Informationen und umfangreichem Hintergrundwissen, was die Wahrnehmungsfähigkeit des Modells für aufkommende Entitäten verbessert. Des Weiteren wird ein Visual Prompt Enhancer vorgeschlagen, um die mangelnde Bekanntheit von MLLMs mit neuartigen Entitäten durch die Nutzung von Internet-basierten Bildern auszugleichen. Um die Effizienz zu erhalten, wird ein WebSense-Modul eingeführt, das intelligent entscheidet, wann Abrufmechanismen basierend auf der Benutzereingabe aufgerufen werden sollen. Experimentelle Ergebnisse zeigen, dass ROSE die Leistung auf dem NEST-Benchmark signifikant steigert und eine starke, auf Gemini-2.0 Flash basierende Retrieval-Baseline um 19.2 gIoU übertrifft.

English

Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.