HalluSegBench: Raciocínio Visual Contrafactual para Segmentação Avaliação de Alucinação
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
June 26, 2025
Autores: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI
Resumo
Os recentes avanços na segmentação visão-linguagem têm impulsionado significativamente a compreensão visual fundamentada. No entanto, esses modelos frequentemente exibem alucinações ao produzir máscaras de segmentação para objetos não presentes no conteúdo da imagem ou ao rotular incorretamente regiões irrelevantes. Os protocolos de avaliação existentes para alucinações de segmentação concentram-se principalmente em alucinações de rótulos ou textuais sem manipular o contexto visual, limitando sua capacidade de diagnosticar falhas críticas. Em resposta, apresentamos o HalluSegBench, o primeiro benchmark especificamente projetado para avaliar alucinações no fundamento visual por meio do raciocínio visual contrafactual. Nosso benchmark consiste em um novo conjunto de dados de 1340 pares de instâncias contrafactuais abrangendo 281 classes de objetos únicas, e um conjunto de métricas recém-introduzidas que quantificam a sensibilidade à alucinação sob edições de cena visualmente coerentes. Experimentos no HalluSegBench com modelos de segmentação visão-linguagem de última geração revelam que alucinações impulsionadas pela visão são significativamente mais prevalentes do que as impulsionadas por rótulos, com os modelos frequentemente persistindo em segmentações falsas, destacando a necessidade de raciocínio contrafactual para diagnosticar a fidelidade do fundamento.
English
Recent progress in vision-language segmentation has significantly advanced
grounded visual understanding. However, these models often exhibit
hallucinations by producing segmentation masks for objects not grounded in the
image content or by incorrectly labeling irrelevant regions. Existing
evaluation protocols for segmentation hallucination primarily focus on label or
textual hallucinations without manipulating the visual context, limiting their
capacity to diagnose critical failures. In response, we introduce
HalluSegBench, the first benchmark specifically designed to evaluate
hallucinations in visual grounding through the lens of counterfactual visual
reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual
instance pairs spanning 281 unique object classes, and a set of newly
introduced metrics that quantify hallucination sensitivity under visually
coherent scene edits. Experiments on HalluSegBench with state-of-the-art
vision-language segmentation models reveal that vision-driven hallucinations
are significantly more prevalent than label-driven ones, with models often
persisting in false segmentation, highlighting the need for counterfactual
reasoning to diagnose grounding fidelity.