Seg-ReSearch : Segmentation avec raisonnement entrelacé et recherche externe
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
February 4, 2026
Auteurs: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI
Résumé
La segmentation basée sur le langage est un sujet populaire en vision par ordinateur. Si les récents progrès des modèles de langage multimodaux (MLLM) ont doté les systèmes de segmentation de capacités de raisonnement, ces efforts restent limités par les connaissances internes figées des MLLM, ce qui restreint leur potentiel pour les scénarios réels impliquant des informations actualisées ou des concepts spécifiques à un domaine. Dans ce travail, nous proposons Seg-ReSearch, un nouveau paradigme de segmentation qui surmonte le goulot d'étranglement des connaissances des approches existantes. En permettant un raisonnement entrelacé avec une recherche externe, Seg-ReSearch permet aux systèmes de segmentation de traiter des requêtes dynamiques et ouvertes qui dépassent le cadre des connaissances figées des MLLM. Pour entraîner efficacement cette capacité, nous introduisons une conception de récompense hiérarchique qui harmonise un guidage initial avec des incitations progressives, atténuant le dilemme entre les signaux de résultat épars et une supervision rigide étape par étape. Pour l'évaluation, nous construisons OK-VOS, un benchmark exigeant qui nécessite explicitement des connaissances externes pour la segmentation d'objets en vidéo. Les expériences sur OK-VOS et deux benchmarks existants de segmentation raisonnée démontrent que notre Seg-ReSearch améliore significativement les approches de l'état de l'art. Le code et les données seront disponibles à l'adresse https://github.com/iSEE-Laboratory/Seg-ReSearch.
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.