De píxeles a conceptos: ¿Entienden los modelos de segmentación lo que segmentan?

Resumen

La segmentación es una tarea fundamental de visión que subyace a numerosas aplicaciones posteriores. Modelos recientes de segmentación orientable por indicaciones, como el Segment Anything Model 3 (SAM3), extienden la segmentación desde la predicción de máscaras independiente de categorías hasta la localización guiada por conceptos condicionada a indicaciones textuales de alto nivel. Sin embargo, los benchmarks existentes evalúan principalmente la precisión de las máscaras o la presencia de objetos, sin aclarar si estos modelos fundamentan fielmente el concepto consultado o, por el contrario, se apoyan en señales visualmente salientes pero semánticamente engañosas. Presentamos CAFE: Evaluación de Factualidad de Atributos Contrafactuales, un nuevo benchmark para evaluar la segmentación fiel al concepto en modelos de segmentación orientable por indicaciones. Nuestro CAFE se basa en la manipulación contrafactual a nivel de atributos: se preservan la región objetivo y la máscara de verdad fundamental, mientras que atributos como la apariencia superficial, el contexto o la composición del material se modifican para introducir señales semánticas engañosas. El benchmark contiene 2146 muestras de prueba pareadas, cada una compuesta por una imagen objetivo, una máscara de verdad fundamental, una indicación positiva y una indicación negativa engañosa. Estas muestras cubren tres categorías contrafactuales: Mimetismo Superficial (MS), Conflicto Contextual (CC) y Conflicto Ontológico (CO). Evaluamos varios tipos y tamaños de modelos en nuestro CAFE. Los experimentos revelan una brecha sistemática entre la calidad de localización y la discriminación de conceptos: los modelos a menudo generan máscaras precisas incluso para indicaciones engañosas, lo que sugiere que una fuerte predicción de máscaras no implica necesariamente una fundamentación semántica fiel. Nuestro CAFE proporciona un benchmark controlado para diagnosticar si los modelos de segmentación orientable por indicaciones realizan una fundamentación fiel al concepto en lugar de una recuperación de máscaras basada en atajos.

English

Segmentation is a fundamental vision task underlying numerous downstream applications. Recent promptable segmentation models, such as Segment Anything Model 3 (SAM3), extend segmentation from category-agnostic mask prediction to concept-guided localization conditioned on high-level textual prompts. However, existing benchmarks primarily evaluate mask accuracy or object presence, leaving unclear whether these models faithfully ground the queried concept or instead rely on visually salient but semantically misleading cues. We introduce CAFE: Counterfactual Attribute Factuality Evaluation, a novel benchmark for evaluating concept-faithful segmentation in promptable segmentation models. Our CAFE is built on attribute-level counterfactual manipulation: the target region and ground-truth mask are preserved, while attributes such as surface appearance, context, or material composition are modified to introduce misleading semantic cues. The benchmark contains 2,146 paired test samples, each consisting of a target image, a ground-truth mask, a positive prompt, and a misleading negative prompt. These samples cover three counterfactual categories: Superficial Mimicry (SM), Context Conflict (CC), and Ontological Conflict (OC). We evaluate various model types and sizes on our CAFE. Experiments reveal a systematic gap between localization quality and concept discrimination: models often generate accurate masks even for misleading prompts, suggesting that strong mask prediction does not necessarily imply faithful semantic grounding. Our CAFE provides a controlled benchmark for diagnosing whether promptable segmentation models perform concept-faithful grounding rather than shortcut-driven mask retrieval.