ChatPaper.aiChatPaper

HalluSegBench: Contrafeit Visueel Redeneren voor Segmentatie Evaluatie van Hallucinaties

HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation

June 26, 2025
Auteurs: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI

Samenvatting

Recente vooruitgang in visueel-taalkundige segmentatie heeft het begrip van visuele context aanzienlijk verbeterd. Deze modellen vertonen echter vaak hallucinaties door segmentatiemaskers te produceren voor objecten die niet in de beeldinhoud aanwezig zijn of door irrelevante regio's onjuist te labelen. Bestaande evaluatieprotocollen voor segmentatiehallucinaties richten zich voornamelijk op label- of tekstuele hallucinaties zonder de visuele context te manipuleren, wat hun vermogen beperkt om kritieke fouten te diagnosticeren. Als reactie hierop introduceren we HalluSegBench, de eerste benchmark die specifiek is ontworpen om hallucinaties in visuele gronding te evalueren door de lens van contrafeitelijke visuele redenering. Onze benchmark bestaat uit een nieuwe dataset van 1340 contrafeitelijke instantieparen die 281 unieke objectklassen omvatten, en een reeks nieuw geïntroduceerde metrieken die de gevoeligheid voor hallucinaties kwantificeren onder visueel coherente scènebewerkingen. Experimenten met HalluSegBench op state-of-the-art visueel-taalkundige segmentatiemodellen laten zien dat visueel gedreven hallucinaties aanzienlijk vaker voorkomen dan labelgedreven hallucinaties, waarbij modellen vaak volharden in valse segmentatie, wat de noodzaak van contrafeitelijke redenering benadrukt om de grondingsbetrouwbaarheid te diagnosticeren.
English
Recent progress in vision-language segmentation has significantly advanced grounded visual understanding. However, these models often exhibit hallucinations by producing segmentation masks for objects not grounded in the image content or by incorrectly labeling irrelevant regions. Existing evaluation protocols for segmentation hallucination primarily focus on label or textual hallucinations without manipulating the visual context, limiting their capacity to diagnose critical failures. In response, we introduce HalluSegBench, the first benchmark specifically designed to evaluate hallucinations in visual grounding through the lens of counterfactual visual reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual instance pairs spanning 281 unique object classes, and a set of newly introduced metrics that quantify hallucination sensitivity under visually coherent scene edits. Experiments on HalluSegBench with state-of-the-art vision-language segmentation models reveal that vision-driven hallucinations are significantly more prevalent than label-driven ones, with models often persisting in false segmentation, highlighting the need for counterfactual reasoning to diagnose grounding fidelity.
PDF21July 4, 2025