Seg-ReSearch: Segmentazione con Ragionamento Intervallato e Ricerca Esterna
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
February 4, 2026
Autori: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI
Abstract
La segmentazione basata sul linguaggio è stata un tema popolare nella computer vision. Sebbene i recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano dotato i sistemi di segmentazione di capacità di ragionamento, questi sforzi rimangono confinati dalla conoscenza interna congelata degli MLLM, il che ne limita il potenziale per scenari reali che coinvolgono informazioni aggiornate o concetti specifici di dominio. In questo lavoro, proponiamo Seg-ReSearch, un nuovo paradigma di segmentazione che supera il collo di bottiglia della conoscenza degli approcci esistenti. Abilitando un ragionamento intercalato e una ricerca esterna, Seg-ReSearch potenzia i sistemi di segmentazione per gestire query dinamiche e di mondo aperto che si estendono oltre la conoscenza congelata degli MLLM. Per addestrare efficacemente questa capacità, introduciamo un design di ricompensa gerarchico che armonizza la guida iniziale con incentivi progressivi, mitigando il dilemma tra segnali di risultato sparsi e una supervisione rigida passo-passo. Per la valutazione, costruiamo OK-VOS, un benchmark impegnativo che richiede esplicitamente conoscenze esterne per la segmentazione di oggetti in video. Esperimenti su OK-VOS e due benchmark esistenti per la segmentazione con ragionamento dimostrano che il nostro Seg-ReSearch migliora gli approcci all'avanguardia con un margine sostanziale. Codice e dati saranno rilasciati su https://github.com/iSEE-Laboratory/Seg-ReSearch.
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.