ChatPaper.aiChatPaper

Seg-ReSearch: Segmentação com Raciocínio Intercalado e Busca Externa

Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search

February 4, 2026
Autores: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI

Resumo

A segmentação baseada em linguagem tem sido um tópico popular na visão computacional. Embora os avanços recentes em modelos de linguagem grandes multimodais (MLLMs) tenham dotado os sistemas de segmentação com capacidades de raciocínio, esses esforços permanecem confinados pelo conhecimento interno congelado dos MLLMs, o que limita seu potencial para cenários do mundo real que envolvem informações atualizadas ou conceitos específicos de domínio. Neste trabalho, propomos o Seg-ReSearch, um novo paradigma de segmentação que supera o gargalo de conhecimento das abordagens existentes. Ao permitir raciocínio intercalado e busca externa, o Seg-ReSearch capacita os sistemas de segmentação para lidar com consultas dinâmicas e de mundo aberto que se estendem além do conhecimento congelado dos MLLMs. Para treinar eficazmente essa capacidade, introduzimos um design de recompensa hierárquica que harmoniza orientação inicial com incentivos progressivos, mitigando o dilema entre sinais esparsos de resultado e supervisão rígida passo a passo. Para avaliação, construímos o OK-VOS, um benchmark desafiador que exige explicitamente conhecimento externo para segmentação de objetos em vídeo. Experimentos no OK-VOS e em dois benchmarks existentes de segmentação por raciocínio demonstram que nosso Seg-ReSearch melhora as abordagens state-of-the-art por uma margem substancial. Código e dados serão disponibilizados em https://github.com/iSEE-Laboratory/Seg-ReSearch.
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.
PDF23March 31, 2026