Seg-ReSearch: Сегментация с чередующимися рассуждениями и внешним поиском
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
February 4, 2026
Авторы: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI
Аннотация
Сегментация на основе языковых запросов является популярной темой в компьютерном зрении. Хотя последние достижения в мультимодальных больших языковых моделях (MLLM) наделили системы сегментации способностями к логическому выводу, эти разработки остаются ограниченными замороженными внутренними знаниями MLLM, что сужает их потенциал для реальных сценариев, требующих работы с актуальной информацией или предметно-ориентированными концепциями. В данной работе мы предлагаем Seg-ReSearch — новую парадигму сегментации, преодолевающую ограничения знаний существующих подходов. Благодаря возможности чередующегося логического вывода и внешнего поиска, Seg-ReSearch позволяет системам сегментации обрабатывать динамические запросы из открытого мира, выходящие за пределы замороженных знаний MLLM. Для эффективного обучения этой способности мы представляем иерархическую схему вознаграждений, сочетающую первоначальное руководство с прогрессивными стимулами, что смягчает дилемму между разреженными сигналами результата и жёстким пошаговым контролем. Для оценки мы создали OK-VOS — сложный бенчмарк, явно требующий привлечения внешних знаний для сегментации видеообъектов. Эксперименты на OK-VOS и двух существующих бенчмарках для сегментации с логическим выводом демонстрируют, что наш Seg-ReSearch существенно превосходит современные подходы. Код и данные будут доступны по адресу https://github.com/iSEE-Laboratory/Seg-ReSearch.
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.