対話的画像セグメンテーション:スケーラブルな教師信号による抽象的概念の接地
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
February 13, 2026
著者: Aadarsh Sahoo, Georgia Gkioxari
cs.AI
要旨
対話的画像セグメンテーションは、抽象的な意図駆動型の概念をピクセル単位で正確なマスクとして定着させる。従来の参照画像接地研究は、カテゴリカルおよび空間的クエリ(例:「左端のリンゴ」)に焦点を当てる一方で、機能的・物理的推論(例:「ナイフを安全に保管できる場所は?」)を軽視してきた。本研究はこの課題を解決し、実体、空間関係、意図、アフォーダンス、機能、安全性、物理的推論にわたるベンチマーク「Conversational Image Segmentation(CIS)」および「ConverSeg」を提案する。さらに、強力なセグメンテーション事前情報と言語理解を融合する「ConverSeg-Net」と、人間の監督なしでプロンプト-マスクペアを生成するAI駆動データエンジンを開発した。現行の言語誘導型セグメンテーションモデルがCISに不十分である一方、当データエンジンで学習したConverSeg-NetはConverSegで大幅な性能向上を達成し、既存の言語誘導型セグメンテーションベンチマークでも高い性能を維持することを示す。プロジェクトウェブページ:https://glab-caltech.github.io/converseg/
English
Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/