ROSE : Amélioration de la Segmentation Orientée par la Récupération

Résumé

Les modèles de segmentation existants basés sur les grands modèles de langage multimodaux (MLLM), tels que LISA, éprouvent souvent des difficultés avec les entités nouvelles ou émergentes en raison de leur incapacité à intégrer des connaissances actualisées. Pour relever ce défi, nous introduisons la tâche de segmentation des entités nouvelles et émergentes (NEST), qui se concentre sur la segmentation (i) des entités nouvelles que les MLLM ne parviennent pas à reconnaître en raison de leur absence des données d'entraînement, et (ii) des entités émergentes qui existent dans les connaissances du modèle mais nécessitent des informations externes actualisées pour une reconnaissance précise. Pour soutenir l'étude de NEST, nous construisons un benchmark NEST en utilisant un pipeline automatisé qui génère des échantillons de données liés à l'actualité pour une évaluation complète. De plus, nous proposons ROSE : Amélioration de la Segmentation par Récupération d'Information, un framework plug-and-play conçu pour augmenter tout modèle de segmentation basé sur les MLLM. ROSE comprend quatre composants clés. Premièrement, un module de Génération Augmentée par Récupération sur Internet est introduit pour employer les entrées multimodales fournies par l'utilisateur afin de récupérer des informations web en temps réel. Ensuite, un Améliorateur d'Invite Textuelle enrichit le modèle avec des informations actualisées et de riches connaissances contextuelles, améliorant la capacité de perception du modèle pour les entités émergentes. De plus, un Améliorateur d'Invite Visuelle est proposé pour compenser le manque d'exposition des MLLM aux entités nouvelles en exploitant des images provenant d'Internet. Pour maintenir l'efficacité, un module WebSense est introduit pour décider intelligemment du moment d'invoquer les mécanismes de récupération en fonction de la saisie de l'utilisateur. Les résultats expérimentaux démontrent que ROSE améliore significativement les performances sur le benchmark NEST, surpassant une base de référence forte basée sur la récupération avec Gemini-2.0 Flash de 19,2 points en gIoU.

English

Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.