ROSE: 검색 지향 세분화 향상
ROSE: Retrieval-Oriented Segmentation Enhancement
April 15, 2026
저자: Song Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang
cs.AI
초록
기존 LISA와 같은 멀티모달 대규모 언어 모델(MLLM) 기반 분할 모델은 최신 지식을 통합하지 못해 새로운 개체나 신규 등장 개체를 정확히 분할하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해 우리는 NEST(Novel Emerging Segmentation Task)를 제안합니다. NEST는 (i) 학습 데이터에 포함되지 않아 MLLM이 인식하지 못하는 새로운(novel) 개체와 (ii) 모델의 지식 범위 내에 있지만 정확한 인식을 위해 최신 외부 정보가 필요한 신규 등장(emerging) 개체의 분할에 중점을 둡니다. NEST 연구를 지원하기 위해 우리는 뉴스 관련 데이터 샘플을 생성하여 포괄적 평가가 가능한 자동화 파이프라인으로 NEST 벤치마크를 구축했습니다. 또한 모든 MLLM 기반 분할 모델의 성능을 향상시키도록 설계된 플러그 앤 플레이 프레임워크인 ROSE(Retrieval-Oriented Segmentation Enhancement)를 제안합니다. ROSE는 네 가지 핵심 구성 요소로 이루어집니다. 첫째, 사용자가 제공한 멀티모달 입력을 활용해 실시간 웹 정보를 검색하는 인터넷 검색 증강 생성 모듈을 도입했습니다. 둘째, 텍스트 프롬프트 향상기는 최신 정보와 풍부한 배경 지식을 제공하여 모델의 신규 등장 개체 인식 능력을 개선합니다. 또한, 인터넷에서 획득한 이미지를 활용해 MLLM이 새로운 개체에 대해 부족한 노출을 보완하는 시각 프롬프트 향상기를 제안합니다. 효율성 유지를 위해 사용자 입력을 기반으로 검색 메커니즘 호출 시기를 지능적으로 결정하는 WebSense 모듈을 도입했습니다. 실험 결과, ROSE는 NEST 벤치마크에서 성능을 크게 향상시키며, 강력한 Gemini-2.0 Flash 기반 검색 베이스라인 대비 gIoU 기준 19.2의 성능 차이로 우수함을 입증했습니다.
English
Existing segmentation models based on multimodal large language models (MLLMs), such as LISA, often struggle with novel or emerging entities due to their inability to incorporate up-to-date knowledge. To address this challenge, we introduce the Novel Emerging Segmentation Task (NEST), which focuses on segmenting (i) novel entities that MLLMs fail to recognize due to their absence from training data, and (ii) emerging entities that exist within the model's knowledge but demand up-to-date external information for accurate recognition. To support the study of NEST, we construct a NEST benchmark using an automated pipeline that generates news-related data samples for comprehensive evaluation. Additionally, we propose ROSE: Retrieval-Oriented Segmentation Enhancement, a plug-and-play framework designed to augment any MLLM-based segmentation model. ROSE comprises four key components. First, an Internet Retrieval-Augmented Generation module is introduced to employ user-provided multimodal inputs to retrieve real-time web information. Then, a Textual Prompt Enhancer enriches the model with up-to-date information and rich background knowledge, improving the model's perception ability for emerging entities. Furthermore, a Visual Prompt Enhancer is proposed to compensate for MLLMs' lack of exposure to novel entities by leveraging internet-sourced images. To maintain efficiency, a WebSense module is introduced to intelligently decide when to invoke retrieval mechanisms based on user input. Experimental results demonstrate that ROSE significantly boosts performance on the NEST benchmark, outperforming a strong Gemini-2.0 Flash-based retrieval baseline by 19.2 in gIoU.