HalluSegBench: Контрфактуальное визуальное рассуждение для сегментации Оценка галлюцинаций

Аннотация

Недавние достижения в области сегментации на основе визуально-языковых моделей значительно продвинули понимание визуального контекста. Однако такие модели часто демонстрируют галлюцинации, создавая маски сегментации для объектов, отсутствующих в изображении, или неправильно маркируя нерелевантные области. Существующие протоколы оценки галлюцинаций в сегментации в основном сосредоточены на текстовых или меточных галлюцинациях, не манипулируя визуальным контекстом, что ограничивает их способность диагностировать критические ошибки. В ответ на это мы представляем HalluSegBench — первый бенчмарк, специально разработанный для оценки галлюцинаций в визуальном заземлении через призму контрафактуального визуального рассуждения. Наш бенчмарк включает новый набор данных из 1340 пар контрафактуальных экземпляров, охватывающих 281 уникальный класс объектов, а также набор новых метрик, которые количественно оценивают чувствительность к галлюцинациям при визуально согласованных изменениях сцены. Эксперименты на HalluSegBench с современными моделями визуально-языковой сегментации показывают, что визуально обусловленные галлюцинации встречаются значительно чаще, чем меточные, причем модели часто сохраняют ложную сегментацию, что подчеркивает необходимость контрафактуального рассуждения для диагностики точности заземления.

English

Recent progress in vision-language segmentation has significantly advanced grounded visual understanding. However, these models often exhibit hallucinations by producing segmentation masks for objects not grounded in the image content or by incorrectly labeling irrelevant regions. Existing evaluation protocols for segmentation hallucination primarily focus on label or textual hallucinations without manipulating the visual context, limiting their capacity to diagnose critical failures. In response, we introduce HalluSegBench, the first benchmark specifically designed to evaluate hallucinations in visual grounding through the lens of counterfactual visual reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual instance pairs spanning 281 unique object classes, and a set of newly introduced metrics that quantify hallucination sensitivity under visually coherent scene edits. Experiments on HalluSegBench with state-of-the-art vision-language segmentation models reveal that vision-driven hallucinations are significantly more prevalent than label-driven ones, with models often persisting in false segmentation, highlighting the need for counterfactual reasoning to diagnose grounding fidelity.

HalluSegBench: Контрфактуальное визуальное рассуждение для сегментации Оценка галлюцинаций

HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation

Аннотация

Support