Seg-ReSearch: 推論と外部検索を組み合わせたセグメンテーション
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
February 4, 2026
著者: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI
要旨
言語に基づくセグメンテーションは、コンピュータビジョンにおける主要な研究トピックである。近年のマルチモーダル大規模言語モデル(MLLM)の進展により、セグメンテーションシステムに推論能力が付与されたが、これらの取り組みはMLLMの固定化された内部知識に制限されており、最新情報やドメイン固有概念を扱う現実世界のシナリオへの応用可能性を妨げている。本研究では、既存手法の知識ボトルネックを克服する新しいセグメンテーション手法であるSeg-ReSearchを提案する。推論と外部検索を交互に行うことで、Seg-ReSearchはMLLMの固定化された知識を超えた動的かつオープンワールドなクエリをセグメンテーションシステムが処理することを可能にする。この能力を効果的に学習させるため、初期ガイダンスと段階的インセンティブを調和させる階層的報酬設計を導入し、疎な結果シグナルと厳格な段階的監督の間のジレンマを緩和する。評価のために、外部知識を明示的に必要とする難易度の高いビデオオブジェクトセグメンテーションベンチマークOK-VOSを構築した。OK-VOSおよび既存の2つの推論セグメンテーションベンチマークにおける実験により、我々のSeg-ReSearchが最先端手法を大幅に改善することを実証した。コードとデータはhttps://github.com/iSEE-Laboratory/Seg-ReSearch で公開予定である。
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.