Konversationsbasierte Bildsegmentierung: Verankerung abstrakter Konzepte durch skalierbare Überwachung
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
February 13, 2026
papers.authors: Aadarsh Sahoo, Georgia Gkioxari
cs.AI
papers.abstract
Konversationelle Bildsegmentierung verankert abstrakte, intentionsgesteuerte Konzepte in pixelgenauen Masken. Bisherige Arbeiten zur referenziellen Bildverankerung konzentrieren sich auf kategoriale und räumliche Anfragen (z.B. "der linkeste Apfel") und vernachlässigen funktionales und physikalisches Reasoning (z.B. "wo kann ich das Messer sicher aufbewahren?"). Wir schließen diese Lücke und führen Konversationelle Bildsegmentierung (CIS) und ConverSeg ein – einen Benchmark, der Entitäten, räumliche Beziehungen, Absicht, Affordanzen, Funktionen, Sicherheit und physikalisches Abwogen umfasst. Wir stellen außerdem ConverSeg-Net vor, das starke Segmentierungs-Prioritäten mit Sprachverständnis fusioniert, sowie eine KI-gestützte Daten-Engine, die Prompt-Masken-Paare ohne menschliche Aufsicht generiert. Wir zeigen, dass aktuelle sprachgesteuerte Segmentierungsmodelle für CIS unzureichend sind, während ConverSeg-Net, das auf unserer Daten-Engine trainiert wurde, signifikante Verbesserungen auf ConverSeg erzielt und gleichzeitig hohe Leistung auf bestehenden sprachgesteuerten Segmentierungs-Benchmarks beibehält. Projektwebseite: https://glab-caltech.github.io/converseg/
English
Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/