Seg-ReSearch: Segmentierung mit verschachteltem Schließen und externer Suche
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
February 4, 2026
Autoren: Tianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng
cs.AI
Zusammenfassung
Die sprachbasierte Segmentierung ist ein beliebtes Forschungsthema in der Computer Vision. Obwohl jüngste Fortschritte bei multimodalen Large Language Models (MLLMs) Segmentierungssysteme mit Reasoning-Fähigkeiten ausgestattet haben, bleiben diese Ansätze durch das eingefrorene interne Wissen der MLLMs begrenzt, was ihr Potenzial für reale Szenarien mit aktuellen Informationen oder domänenspezifischen Konzepten einschränkt. In dieser Arbeit schlagen wir Seg-ReSearch vor, ein neuartiges Segmentierungsparadigma, das den Wissensengpass bestehender Ansätze überwindet. Durch die Ermöglichung von verschachteltem Reasoning und externer Suche befähigt Seg-ReSearch Segmentierungssysteme dazu, dynamische, Open-World-Anfragen zu verarbeiten, die über das eingefrorene Wissen von MLLMs hinausgehen. Um diese Fähigkeit effektiv zu trainieren, führen wir ein hierarchisches Belohnungsdesign ein, das initiale Führung mit progressiven Anreizen in Einklang bringt und so das Dilemma zwischen spärlichen Ergebnissignalen und starrer schrittweiser Überwachung mildert. Für die Evaluation erstellen wir OK-VOS, einen anspruchsvollen Benchmark, der explizit externes Wissen für Video Object Segmentation erfordert. Experimente auf OK-VOS und zwei bestehenden Reasoning-Segmentierungs-Benchmarks zeigen, dass unser Seg-ReSearch state-of-the-art Ansätze um einen deutlichen Vorsprung verbessert. Code und Daten werden unter https://github.com/iSEE-Laboratory/Seg-ReSearch veröffentlicht.
English
Segmentation based on language has been a popular topic in computer vision. While recent advances in multimodal large language models (MLLMs) have endowed segmentation systems with reasoning capabilities, these efforts remain confined by the frozen internal knowledge of MLLMs, which limits their potential for real-world scenarios that involve up-to-date information or domain-specific concepts. In this work, we propose Seg-ReSearch, a novel segmentation paradigm that overcomes the knowledge bottleneck of existing approaches. By enabling interleaved reasoning and external search, Seg-ReSearch empowers segmentation systems to handle dynamic, open-world queries that extend beyond the frozen knowledge of MLLMs. To effectively train this capability, we introduce a hierarchical reward design that harmonizes initial guidance with progressive incentives, mitigating the dilemma between sparse outcome signals and rigid step-wise supervision. For evaluation, we construct OK-VOS, a challenging benchmark that explicitly requires outside knowledge for video object segmentation. Experiments on OK-VOS and two existing reasoning segmentation benchmarks demonstrate that our Seg-ReSearch improves state-of-the-art approaches by a substantial margin. Code and data will be released at https://github.com/iSEE-Laboratory/Seg-ReSearch.