HalluSegBench: Контрфактуальное визуальное рассуждение для сегментации Оценка галлюцинаций
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
June 26, 2025
Авторы: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI
Аннотация
Недавние достижения в области сегментации на основе визуально-языковых моделей значительно продвинули понимание визуального контекста. Однако такие модели часто демонстрируют галлюцинации, создавая маски сегментации для объектов, отсутствующих в изображении, или неправильно маркируя нерелевантные области. Существующие протоколы оценки галлюцинаций в сегментации в основном сосредоточены на текстовых или меточных галлюцинациях, не манипулируя визуальным контекстом, что ограничивает их способность диагностировать критические ошибки. В ответ на это мы представляем HalluSegBench — первый бенчмарк, специально разработанный для оценки галлюцинаций в визуальном заземлении через призму контрафактуального визуального рассуждения. Наш бенчмарк включает новый набор данных из 1340 пар контрафактуальных экземпляров, охватывающих 281 уникальный класс объектов, а также набор новых метрик, которые количественно оценивают чувствительность к галлюцинациям при визуально согласованных изменениях сцены. Эксперименты на HalluSegBench с современными моделями визуально-языковой сегментации показывают, что визуально обусловленные галлюцинации встречаются значительно чаще, чем меточные, причем модели часто сохраняют ложную сегментацию, что подчеркивает необходимость контрафактуального рассуждения для диагностики точности заземления.
English
Recent progress in vision-language segmentation has significantly advanced
grounded visual understanding. However, these models often exhibit
hallucinations by producing segmentation masks for objects not grounded in the
image content or by incorrectly labeling irrelevant regions. Existing
evaluation protocols for segmentation hallucination primarily focus on label or
textual hallucinations without manipulating the visual context, limiting their
capacity to diagnose critical failures. In response, we introduce
HalluSegBench, the first benchmark specifically designed to evaluate
hallucinations in visual grounding through the lens of counterfactual visual
reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual
instance pairs spanning 281 unique object classes, and a set of newly
introduced metrics that quantify hallucination sensitivity under visually
coherent scene edits. Experiments on HalluSegBench with state-of-the-art
vision-language segmentation models reveal that vision-driven hallucinations
are significantly more prevalent than label-driven ones, with models often
persisting in false segmentation, highlighting the need for counterfactual
reasoning to diagnose grounding fidelity.