Сегментация изображений в диалоговом режиме: обоснование абстрактных концепций с помощью масштабируемого контроля
Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision
February 13, 2026
Авторы: Aadarsh Sahoo, Georgia Gkioxari
cs.AI
Аннотация
Сегментация изображений в диалоге преобразует абстрактные, интенционально-нагруженные концепции в пиксельно-точные маски. Предыдущие работы по локализации объектов по запросу фокусировались на категориальных и пространственных запросах (например, «самое левое яблоко») и упускали из виду функциональные и физические рассуждения (например, «где я могу безопасно хранить нож?»). Мы устраняем этот пробел, вводя концепцию диалоговой сегментации изображений (CIS) и бенчмарк ConverSeg, охватывающий сущности, пространственные отношения, намерения, аффордансы, функции, безопасность и физические рассуждения. Мы также представляем ConverSeg-Net, который объединяет сильные априорные знания о сегментации с пониманием языка, и автоматизированную систему генерации данных, создающую пары «запрос-маска» без участия человека. Мы демонстрируем, что современные модели сегментации по языковому описанию неадекватны для задачи CIS, в то время как ConverSeg-Net, обученная на наших данных, достигает значительного прогресса на бенчмарке ConverSeg и сохраняет высокую производительность на существующих бенчмарках по языково-управляемой сегментации. Страница проекта: https://glab-caltech.github.io/converseg/
English
Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/