Seg-ReSearch: Segmentatie met Verweven Redeneren en Extern Zoeken

Samenvatting

Segmentatie op basis van taal is een populair onderwerp geweest in de computer vision. Hoewel recente vooruitgang in multimodale grote taalmmodellen (MLLM's) segmentatiesystemen heeft uitgerust met redeneervermogen, blijven deze inspanningen beperkt door de bevroren interne kennis van MLLM's, wat hun potentieel voor realistische scenario's met actuele informatie of domeinspecifieke concepten beperkt. In dit werk stellen we Seg-ReSearch voor, een nieuw segmentatieparadigma dat de kennisbarrière van bestaande benaderingen overwint. Door het mogelijk maken van verweven redeneren en extern zoeken, stelt Seg-ReSearch segmentatiesystemen in staat om dynamische, open-wereld queries aan te kunnen die verder gaan dan de bevroren kennis van MLLM's. Om deze capaciteit effectief te trainen, introduceren we een hiërarchische beloningsstructuur die initiële begeleiding harmoniseert met progressieve prikkels, waardoor het dilemma tussen uitkomstsignalen en rigide stapsgewijze supervisie wordt verzacht. Voor de evaluatie construeren we OK-VOS, een uitdagende benchmark die expliciet externe kennis vereist voor video-objectsegmentatie. Experimenten op OK-VOS en twee bestaande redeneersegmentatiebenchmarks tonen aan dat onze Seg-ReSearch state-of-the-art benaderingen met een aanzienlijke marge verbetert. Code en data worden vrijgegeven op https://github.com/iSEE-Laboratory/Seg-ReSearch.

English

Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.

Seg-ReSearch: Segmentatie met Verweven Redeneren en Extern Zoeken

Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search

Samenvatting

Support