HalluSegBench: 세분화를 위한 반사실적 시각적 추론 환각 현상 평가
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
June 26, 2025
저자: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI
초록
비전-언어 분할(segmentation) 분야의 최근 발전은 시각적 이해의 토대를 크게 진전시켰습니다. 그러나 이러한 모델들은 종종 이미지 내용에 근거하지 않은 객체에 대한 분할 마스크를 생성하거나 관련 없는 영역을 잘못 레이블링함으로써 환각(hallucination) 현상을 보입니다. 기존의 분할 환각 평가 프로토콜은 주로 레이블 또는 텍스트 환각에 초점을 맞추고 시각적 맥락을 조작하지 않아, 중요한 실패를 진단하는 데 한계가 있었습니다. 이에 대응하여, 우리는 반사실적(counterfactual) 시각 추론의 관점에서 시각적 토대의 환각을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 HalluSegBench을 소개합니다. 우리의 벤치마크는 281개의 고유 객체 클래스에 걸친 1340개의 반사실적 인스턴스 쌍으로 구성된 새로운 데이터셋과, 시각적으로 일관된 장면 편집 하에서 환각 민감도를 정량화하는 새로운 메트릭 세트로 이루어져 있습니다. 최첨단 비전-언어 분할 모델을 대상으로 한 HalluSegBench 실험 결과, 레이블 기반 환각보다 시각 기반 환각이 훨씬 더 빈번하게 발생하며, 모델들이 종종 잘못된 분할을 고수하는 것으로 나타나, 토대 충실도를 진단하기 위해 반사실적 추론의 필요성이 강조되었습니다.
English
Recent progress in vision-language segmentation has significantly advanced
grounded visual understanding. However, these models often exhibit
hallucinations by producing segmentation masks for objects not grounded in the
image content or by incorrectly labeling irrelevant regions. Existing
evaluation protocols for segmentation hallucination primarily focus on label or
textual hallucinations without manipulating the visual context, limiting their
capacity to diagnose critical failures. In response, we introduce
HalluSegBench, the first benchmark specifically designed to evaluate
hallucinations in visual grounding through the lens of counterfactual visual
reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual
instance pairs spanning 281 unique object classes, and a set of newly
introduced metrics that quantify hallucination sensitivity under visually
coherent scene edits. Experiments on HalluSegBench with state-of-the-art
vision-language segmentation models reveal that vision-driven hallucinations
are significantly more prevalent than label-driven ones, with models often
persisting in false segmentation, highlighting the need for counterfactual
reasoning to diagnose grounding fidelity.