Segmentation d'images conversationnelle : Ancrage de concepts abstraits avec supervision évolutive
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
February 13, 2026
papers.authors: Aadarsh Sahoo, Georgia Gkioxari
cs.AI
papers.abstract
La segmentation d'images conversationnelle ancre des concepts abstraits et intentionnels dans des masques à précision pixel. Les travaux antérieurs sur l'ancrage d'images par référence se concentrent sur des requêtes catégorielles et spatiales (par exemple, "la pomme la plus à gauche") et négligent le raisonnement fonctionnel et physique (par exemple, "où puis-je ranger le couteau en toute sécurité ?"). Nous comblons cette lacune en introduisant la segmentation d'images conversationnelle (CIS) et ConverSeg, un benchmark couvrant les entités, les relations spatiales, l'intention, les affordances, les fonctions, la sécurité et le raisonnement physique. Nous présentons également ConverSeg-Net, qui fusionne de solides prérequis en segmentation avec la compréhension du langage, ainsi qu'un moteur de données alimenté par l'IA qui génère des paires invite-masque sans supervision humaine. Nous démontrons que les modèles actuels de segmentation guidée par le langage sont inadéquats pour la CIS, tandis que ConverSeg-Net entraîné sur notre moteur de données obtient des gains significatifs sur ConverSeg et maintient des performances solides sur les benchmarks existants de segmentation guidée par le langage. Page web du projet : https://glab-caltech.github.io/converseg/
English
Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/