HalluSegBench: Razonamiento visual contrafáctico para segmentación Evaluación de alucinaciones
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
June 26, 2025
Autores: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI
Resumen
Los recientes avances en la segmentación visión-lenguaje han impulsado significativamente la comprensión visual fundamentada. Sin embargo, estos modelos a menudo presentan alucinaciones al generar máscaras de segmentación para objetos no presentes en el contenido de la imagen o al etiquetar incorrectamente regiones irrelevantes. Los protocolos de evaluación existentes para la alucinación en segmentación se centran principalmente en alucinaciones de etiquetas o textuales sin manipular el contexto visual, lo que limita su capacidad para diagnosticar fallos críticos. En respuesta, presentamos HalluSegBench, el primer punto de referencia diseñado específicamente para evaluar alucinaciones en la fundamentación visual a través del razonamiento visual contrafáctico. Nuestro punto de referencia incluye un nuevo conjunto de datos de 1340 pares de instancias contrafácticas que abarcan 281 clases de objetos únicas, y un conjunto de métricas recién introducidas que cuantifican la sensibilidad a las alucinaciones bajo ediciones visualmente coherentes de la escena. Los experimentos en HalluSegBench con modelos de segmentación visión-lenguaje de última generación revelan que las alucinaciones impulsadas por la visión son significativamente más frecuentes que las impulsadas por etiquetas, con modelos que a menudo persisten en una segmentación falsa, destacando la necesidad del razonamiento contrafáctico para diagnosticar la fidelidad de la fundamentación.
English
Recent progress in vision-language segmentation has significantly advanced
grounded visual understanding. However, these models often exhibit
hallucinations by producing segmentation masks for objects not grounded in the
image content or by incorrectly labeling irrelevant regions. Existing
evaluation protocols for segmentation hallucination primarily focus on label or
textual hallucinations without manipulating the visual context, limiting their
capacity to diagnose critical failures. In response, we introduce
HalluSegBench, the first benchmark specifically designed to evaluate
hallucinations in visual grounding through the lens of counterfactual visual
reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual
instance pairs spanning 281 unique object classes, and a set of newly
introduced metrics that quantify hallucination sensitivity under visually
coherent scene edits. Experiments on HalluSegBench with state-of-the-art
vision-language segmentation models reveal that vision-driven hallucinations
are significantly more prevalent than label-driven ones, with models often
persisting in false segmentation, highlighting the need for counterfactual
reasoning to diagnose grounding fidelity.