HalluSegBench: Kontrafaktische visuelle Argumentation für die Segmentierung Halluzinationsbewertung

Zusammenfassung

Jüngste Fortschritte in der visuell-sprachlichen Segmentierung haben das fundierte visuelle Verständnis erheblich vorangebracht. Diese Modelle zeigen jedoch häufig Halluzinationen, indem sie Segmentierungsmasken für Objekte erzeugen, die nicht im Bildinhalt verankert sind, oder indem sie irrelevante Regionen falsch kennzeichnen. Bestehende Evaluierungsprotokolle für Segmentierungshalluzinationen konzentrieren sich hauptsächlich auf Label- oder textuelle Halluzinationen, ohne den visuellen Kontext zu manipulieren, was ihre Fähigkeit zur Diagnose kritischer Fehler einschränkt. Als Antwort darauf stellen wir HalluSegBench vor, den ersten Benchmark, der speziell zur Bewertung von Halluzinationen in der visuellen Verankerung durch die Linse des kontrafaktischen visuellen Denkens entwickelt wurde. Unser Benchmark besteht aus einem neuartigen Datensatz von 1340 kontrafaktischen Instanzenpaaren, die 281 einzigartige Objektklassen umfassen, und einer Reihe neu eingeführter Metriken, die die Halluzinationsempfindlichkeit unter visuell kohärenten Szenenbearbeitungen quantifizieren. Experimente mit HalluSegBench anhand von state-of-the-art visuell-sprachlichen Segmentierungsmodellen zeigen, dass visuell getriebene Halluzinationen deutlich häufiger auftreten als labelgetriebene, wobei Modelle oft an falschen Segmentierungen festhalten, was die Notwendigkeit kontrafaktischen Denkens zur Diagnose der Verankerungstreue unterstreicht.

English

Recent progress in vision-language segmentation has significantly advanced grounded visual understanding. However, these models often exhibit hallucinations by producing segmentation masks for objects not grounded in the image content or by incorrectly labeling irrelevant regions. Existing evaluation protocols for segmentation hallucination primarily focus on label or textual hallucinations without manipulating the visual context, limiting their capacity to diagnose critical failures. In response, we introduce HalluSegBench, the first benchmark specifically designed to evaluate hallucinations in visual grounding through the lens of counterfactual visual reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual instance pairs spanning 281 unique object classes, and a set of newly introduced metrics that quantify hallucination sensitivity under visually coherent scene edits. Experiments on HalluSegBench with state-of-the-art vision-language segmentation models reveal that vision-driven hallucinations are significantly more prevalent than label-driven ones, with models often persisting in false segmentation, highlighting the need for counterfactual reasoning to diagnose grounding fidelity.

HalluSegBench: Kontrafaktische visuelle Argumentation für die Segmentierung Halluzinationsbewertung

HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation

Zusammenfassung

Support