Segmentación de Imágenes Conversacional: Fundamentando Conceptos Abstractos con Supervisión Escalable
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
February 13, 2026
Autores: Aadarsh Sahoo, Georgia Gkioxari
cs.AI
Resumen
La segmentación de imágenes conversacionales materializa conceptos abstractos impulsados por intenciones en máscaras de precisión a nivel de píxel. Trabajos previos sobre el anclaje de imágenes referenciales se centran en consultas categóricas y espaciales (por ejemplo, "la manzana del extremo izquierdo") y pasan por alto el razonamiento funcional y físico (por ejemplo, "¿dónde puedo guardar el cuchillo de forma segura?"). Abordamos esta brecha e introducimos la Segmentación de Imágenes Conversacionales (CIS) y ConverSeg, un punto de referencia que abarca entidades, relaciones espaciales, intención, affordances, funciones, seguridad y razonamiento físico. También presentamos ConverSeg-Net, que fusiona fuertes conocimientos previos de segmentación con la comprensión del lenguaje, y un motor de datos impulsado por IA que genera pares de prompt-máscara sin supervisión humana. Demostramos que los modelos actuales de segmentación guiada por lenguaje son inadecuados para CIS, mientras que ConverSeg-Net entrenado con nuestro motor de datos logra mejoras significativas en ConverSeg y mantiene un rendimiento sólido en los puntos de referencia existentes de segmentación guiada por lenguaje. Página web del proyecto: https://glab-caltech.github.io/converseg/
English
Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/