Seg-ReSearch: Segmentación con Razonamiento Entrelazado y Búsqueda Externa
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
February 4, 2026
Autores: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI
Resumen
La segmentación basada en lenguaje ha sido un tema popular en visión por computadora. Si bien los recientes avances en modelos de lenguaje multimodal (MLLM) han dotado a los sistemas de segmentación de capacidades de razonamiento, estos esfuerzos siguen limitados por el conocimiento interno congelado de los MLLM, lo que restringe su potencial para escenarios del mundo real que involucran información actualizada o conceptos específicos de dominio. En este trabajo, proponemos Seg-ReSearch, un nuevo paradigma de segmentación que supera el cuello de botella de conocimiento de los enfoques existentes. Al permitir un razonamiento entrelazado y una búsqueda externa, Seg-ReSearch empodera a los sistemas de segmentación para manejar consultas dinámicas de mundo abierto que se extienden más allá del conocimiento congelado de los MLLM. Para entrenar esta capacidad de manera efectiva, introducimos un diseño de recompensa jerárquica que armoniza la guía inicial con incentivos progresivos, mitigando el dilema entre las señales de resultado dispersas y la supervisión rígida paso a paso. Para la evaluación, construimos OK-VOS, un benchmark desafiante que requiere explícitamente conocimiento externo para la segmentación de objetos en video. Los experimentos en OK-VOS y en dos benchmarks existentes de segmentación por razonamiento demuestran que nuestro Seg-ReSearch mejora los enfoques de vanguardia por un margen sustancial. El código y los datos se publicarán en https://github.com/iSEE-Laboratory/Seg-ReSearch.
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.