대화형 이미지 분할: 확장 가능한 감독을 통한 추상적 개념의 정착
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
February 13, 2026
저자: Aadarsh Sahoo, Georgia Gkioxari
cs.AI
초록
대화형 이미지 분할은 추상적이고 의도 기반의 개념을 픽셀 단위 정확도의 마스크로 구현합니다. 기존의 참조 이미지 기반화 연구는 범주적 및 공간적 질의(예: "가장 왼쪽에 있는 사과")에 집중한 반면, 기능적 및 물리적 추론(예: "칼을 안전하게 보관할 수 있는 곳은 어디인가요?")을 간과해 왔습니다. 본 연구는 이러한 격차를 해소하며, 개체, 공간 관계, 의도, 어포던스, 기능, 안전 및 물리적 추론을 포괄하는 벤치마크인 대화형 이미지 분할(CIS)과 ConverSeg를 소개합니다. 또한 강력한 분할 사전 지식과 언어 이해를 융합한 ConverSeg-Net과 인간의 감독 없이 프롬프트-마스크 쌍을 생성하는 AI 기반 데이터 엔진을 제시합니다. 우리는 현재의 언어 기반 분할 모델이 CIS에 부적합한 반면, 우리의 데이터 엔진으로 훈련된 ConverSeg-Net이 ConverSeg에서 상당한 성능 향상을 달성하고 기존 언어 기반 분할 벤치마크에서도 강력한 성능을 유지함을 보여줍니다. 프로젝트 웹페이지: https://glab-caltech.github.io/converseg/
English
Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/