Segmentação de Imagens Conversacional: Fundamentando Conceitos Abstratos com Supervisão Escalável

Resumo

A segmentação conversacional de imagens transforma conceitos abstratos e orientados por intenção em máscaras com precisão de pixel. Trabalhos anteriores sobre a ancoragem de imagens por referência focam em consultas categóricas e espaciais (por exemplo, "maçã mais à esquerda") e negligenciam o raciocínio funcional e físico (por exemplo, "onde posso guardar a faca com segurança?"). Nós abordamos esta lacuna e introduzimos a Segmentação Conversacional de Imagens (CIS) e o ConverSeg, um benchmark que abrange entidades, relações espaciais, intenção, affordances, funções, segurança e raciocínio físico. Também apresentamos o ConverSeg-Net, que funde fortes prioridades de segmentação com a compreensão linguística, e um motor de dados com IA que gera pares de prompt-máscara sem supervisão humana. Mostramos que os modelos atuais de segmentação guiada por linguagem são inadequados para CIS, enquanto o ConverSeg-Net treinado com nosso motor de dados alcança ganhos significativos no ConverSeg e mantém um forte desempenho nos benchmarks existentes de segmentação guiada por linguagem. Página do projeto: https://glab-caltech.github.io/converseg/

English

Conversational image segmentation grounds abstract, intent-driven concepts into pixel-accurate masks. Prior work on referring image grounding focuses on categorical and spatial queries (e.g., "left-most apple") and overlooks functional and physical reasoning (e.g., "where can I safely store the knife?"). We address this gap and introduce Conversational Image Segmentation (CIS) and ConverSeg, a benchmark spanning entities, spatial relations, intent, affordances, functions, safety, and physical reasoning. We also present ConverSeg-Net, which fuses strong segmentation priors with language understanding, and an AI-powered data engine that generates prompt-mask pairs without human supervision. We show that current language-guided segmentation models are inadequate for CIS, while ConverSeg-Net trained on our data engine achieves significant gains on ConverSeg and maintains strong performance on existing language-guided segmentation benchmarks. Project webpage: https://glab-caltech.github.io/converseg/