HalluSegBench: Kontrafaktische visuelle Argumentation für die Segmentierung Halluzinationsbewertung
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
June 26, 2025
Autoren: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI
Zusammenfassung
Jüngste Fortschritte in der visuell-sprachlichen Segmentierung haben das fundierte visuelle Verständnis erheblich vorangebracht. Diese Modelle zeigen jedoch häufig Halluzinationen, indem sie Segmentierungsmasken für Objekte erzeugen, die nicht im Bildinhalt verankert sind, oder indem sie irrelevante Regionen falsch kennzeichnen. Bestehende Evaluierungsprotokolle für Segmentierungshalluzinationen konzentrieren sich hauptsächlich auf Label- oder textuelle Halluzinationen, ohne den visuellen Kontext zu manipulieren, was ihre Fähigkeit zur Diagnose kritischer Fehler einschränkt. Als Antwort darauf stellen wir HalluSegBench vor, den ersten Benchmark, der speziell zur Bewertung von Halluzinationen in der visuellen Verankerung durch die Linse des kontrafaktischen visuellen Denkens entwickelt wurde. Unser Benchmark besteht aus einem neuartigen Datensatz von 1340 kontrafaktischen Instanzenpaaren, die 281 einzigartige Objektklassen umfassen, und einer Reihe neu eingeführter Metriken, die die Halluzinationsempfindlichkeit unter visuell kohärenten Szenenbearbeitungen quantifizieren. Experimente mit HalluSegBench anhand von state-of-the-art visuell-sprachlichen Segmentierungsmodellen zeigen, dass visuell getriebene Halluzinationen deutlich häufiger auftreten als labelgetriebene, wobei Modelle oft an falschen Segmentierungen festhalten, was die Notwendigkeit kontrafaktischen Denkens zur Diagnose der Verankerungstreue unterstreicht.
English
Recent progress in vision-language segmentation has significantly advanced
grounded visual understanding. However, these models often exhibit
hallucinations by producing segmentation masks for objects not grounded in the
image content or by incorrectly labeling irrelevant regions. Existing
evaluation protocols for segmentation hallucination primarily focus on label or
textual hallucinations without manipulating the visual context, limiting their
capacity to diagnose critical failures. In response, we introduce
HalluSegBench, the first benchmark specifically designed to evaluate
hallucinations in visual grounding through the lens of counterfactual visual
reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual
instance pairs spanning 281 unique object classes, and a set of newly
introduced metrics that quantify hallucination sensitivity under visually
coherent scene edits. Experiments on HalluSegBench with state-of-the-art
vision-language segmentation models reveal that vision-driven hallucinations
are significantly more prevalent than label-driven ones, with models often
persisting in false segmentation, highlighting the need for counterfactual
reasoning to diagnose grounding fidelity.