Seg-ReSearch: 분할과 교차 추론 및 외부 탐색의 결합
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
February 4, 2026
저자: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI
초록
언어 기반 분할은 컴퓨터 비전 분야에서 꾸준히 주목받아 온 주제입니다. 최근 멀티모달 대규모 언어 모델(MLLM)의 발전으로 분할 시스템에 추론 능력이 부여되었지만, 이러한 노력은 MLLM의 고정된 내부 지식에 한정되어 최신 정보나 도메인 특화 개념을 포함하는 실제 시나리오 적용에 한계가 있습니다. 본 연구에서는 기존 접근법의 지식 병목 현상을 극복하는 새로운 분할 패러다임인 Seg-ReSearch를 제안합니다. Seg-ReSearch는 교차 추론과 외부 검색을 가능하게 함으로써 MLLM의 고정된 지식 범위를 넘어서는 동적이고 개방된 세계의 질의를 처리할 수 있는 분할 시스템을 구현합니다. 이러한 능력을 효과적으로 학습시키기 위해 초기 지도와 점진적 인센티브를 조화시키는 계층적 보상 설계를 도입하여 희소한 결과 신호와 경직된 단계별 감독 간의 딜레마를 완화합니다. 평가를 위해 외부 지식이 명시적으로 요구되는 비디오 객체 분할용 벤치마크인 OK-VOS를 구축했습니다. OK-VOS와 기존 추론 분할 벤치마크 두 가지에 대한 실험을 통해 본 연구의 Seg-ReSearch가 최첨단 접근법을 크게 개선함을 입증합니다. 코드와 데이터는 https://github.com/iSEE-Laboratory/Seg-ReSearch에서 공개될 예정입니다.
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.