HalluSegBench: Ragionamento Visuale Controfattuale per la Segmentazione Valutazione dell'Allucinazione
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
June 26, 2025
Autori: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI
Abstract
I recenti progressi nella segmentazione visione-linguaggio hanno significativamente avanzato la comprensione visiva contestualizzata. Tuttavia, questi modelli spesso presentano allucinazioni producendo maschere di segmentazione per oggetti non presenti nel contenuto dell'immagine o etichettando erroneamente regioni irrilevanti. I protocolli di valutazione esistenti per le allucinazioni nella segmentazione si concentrano principalmente sulle allucinazioni legate alle etichette o al testo senza manipolare il contesto visivo, limitando la loro capacità di diagnosticare errori critici. In risposta, introduciamo HalluSegBench, il primo benchmark specificamente progettato per valutare le allucinazioni nel grounding visivo attraverso il ragionamento visivo controfattuale. Il nostro benchmark consiste in un nuovo dataset di 1340 coppie di istanze controfattuali che coprono 281 classi di oggetti uniche, e un insieme di metriche appositamente introdotte che quantificano la sensibilità alle allucinazioni sotto modifiche visivamente coerenti della scena. Gli esperimenti su HalluSegBench con modelli di segmentazione visione-linguaggio all'avanguardia rivelano che le allucinazioni guidate dalla visione sono significativamente più frequenti di quelle guidate dalle etichette, con i modelli che spesso persistono in segmentazioni errate, evidenziando la necessità del ragionamento controfattuale per diagnosticare la fedeltà del grounding.
English
Recent progress in vision-language segmentation has significantly advanced
grounded visual understanding. However, these models often exhibit
hallucinations by producing segmentation masks for objects not grounded in the
image content or by incorrectly labeling irrelevant regions. Existing
evaluation protocols for segmentation hallucination primarily focus on label or
textual hallucinations without manipulating the visual context, limiting their
capacity to diagnose critical failures. In response, we introduce
HalluSegBench, the first benchmark specifically designed to evaluate
hallucinations in visual grounding through the lens of counterfactual visual
reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual
instance pairs spanning 281 unique object classes, and a set of newly
introduced metrics that quantify hallucination sensitivity under visually
coherent scene edits. Experiments on HalluSegBench with state-of-the-art
vision-language segmentation models reveal that vision-driven hallucinations
are significantly more prevalent than label-driven ones, with models often
persisting in false segmentation, highlighting the need for counterfactual
reasoning to diagnose grounding fidelity.