Segmentazione Conversazionale delle Immagini: Radicare Concetti Astratti con Supervisione Scalabile
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
February 13, 2026
Autori: Aadarsh Sahoo, Georgia Gkioxari
cs.AI
Abstract
La segmentazione di immagini conversazionale traduce concetti astratti e guidati dall'intento in maschere a livello di pixel con precisione. I precedenti lavori sul grounding di immagini referenziali si concentrano su query categoriali e spaziali (ad esempio, "la mela più a sinistra") e trascurano il ragionamento funzionale e fisico (ad esempio, "dove posso riporre in sicurezza il coltello?"). Affrontiamo questa lacuna introducendo la Segmentazione di Immagini Conversazionale (CIS) e ConverSeg, un benchmark che copre entità, relazioni spaziali, intento, affordance, funzioni, sicurezza e ragionamento fisico. Presentiamo inoltre ConverSeg-Net, che fonde forti prior di segmentazione con la comprensione del linguaggio, e un motore di dati basato su IA che genera coppie prompt-maschera senza supervisione umana. Dimostriamo che gli attuali modelli di segmentazione guidata dal linguaggio sono inadeguati per la CIS, mentre ConverSeg-Net, addestrato sul nostro motore di dati, ottiene miglioramenti significativi su ConverSeg e mantiene prestazioni solide sui benchmark esistenti di segmentazione guidata dal linguaggio. Pagina web del progetto: https://glab-caltech.github.io/converseg/
English
Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/