De Pixels a Conceitos: Os Modelos de Segmentação Entendem o que Segmentam?

Resumo

Segmentação é uma tarefa fundamental de visão que sustenta inúmeras aplicações downstream. Modelos recentes de segmentação acionáveis por prompts, como o Segment Anything Model 3 (SAM3), ampliam a segmentação da predição de máscaras agnósticas em relação à categoria para a localização guiada por conceitos, condicionada a prompts textuais de alto nível. No entanto, os benchmarks existentes avaliam principalmente a precisão da máscara ou a presença do objeto, deixando incerto se esses modelos realmente fundamentam o conceito consultado ou, em vez disso, recorrem a pistas visualmente salientes, mas semanticamente enganosas. Apresentamos o CAFE: Avaliação Contrafactual de Factualidade de Atributos (Counterfactual Attribute Factuality Evaluation), um benchmark inovador para avaliar a segmentação fiel ao conceito em modelos de segmentação acionáveis por prompts. Nosso CAFE é construído sobre manipulação contrafactual em nível de atributo: a região-alvo e a máscara de verdade fundamental são preservadas, enquanto atributos como aparência superficial, contexto ou composição material são modificados para introduzir pistas semânticas enganosas. O benchmark contém 2.146 amostras de teste pareadas, cada uma consistindo em uma imagem-alvo, uma máscara de verdade fundamental, um prompt positivo e um prompt negativo enganoso. Essas amostras abrangem três categorias contrafactuais: Mimetismo Superficial (SM), Conflito de Contexto (CC) e Conflito Ontológico (OC). Avaliamos vários tipos e tamanhos de modelos em nosso CAFE. Experimentos revelam uma lacuna sistemática entre a qualidade da localização e a discriminação de conceitos: os modelos frequentemente geram máscaras precisas mesmo para prompts enganosos, sugerindo que uma forte predição de máscara não implica necessariamente uma ancoragem semântica fiel. Nosso CAFE fornece um benchmark controlado para diagnosticar se os modelos de segmentação acionáveis por prompts realizam uma fundamentação fiel ao conceito, em vez de uma recuperação de máscara orientada por atalhos.

English

Segmentation is a fundamental vision task underlying numerous downstream applications. Recent promptable segmentation models, such as Segment Anything Model 3 (SAM3), extend segmentation from category-agnostic mask prediction to concept-guided localization conditioned on high-level textual prompts. However, existing benchmarks primarily evaluate mask accuracy or object presence, leaving unclear whether these models faithfully ground the queried concept or instead rely on visually salient but semantically misleading cues. We introduce CAFE: Counterfactual Attribute Factuality Evaluation, a novel benchmark for evaluating concept-faithful segmentation in promptable segmentation models. Our CAFE is built on attribute-level counterfactual manipulation: the target region and ground-truth mask are preserved, while attributes such as surface appearance, context, or material composition are modified to introduce misleading semantic cues. The benchmark contains 2,146 paired test samples, each consisting of a target image, a ground-truth mask, a positive prompt, and a misleading negative prompt. These samples cover three counterfactual categories: Superficial Mimicry (SM), Context Conflict (CC), and Ontological Conflict (OC). We evaluate various model types and sizes on our CAFE. Experiments reveal a systematic gap between localization quality and concept discrimination: models often generate accurate masks even for misleading prompts, suggesting that strong mask prediction does not necessarily imply faithful semantic grounding. Our CAFE provides a controlled benchmark for diagnosing whether promptable segmentation models perform concept-faithful grounding rather than shortcut-driven mask retrieval.