ChatPaper.aiChatPaper

HalluSegBench: セグメンテーションのための反事実的視覚推論 幻覚評価

HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation

June 26, 2025
著者: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI

要旨

視覚言語セグメンテーションの最近の進展は、接地された視覚理解を大幅に進歩させてきました。しかし、これらのモデルはしばしば、画像内容に基づかないオブジェクトのセグメンテーションマスクを生成したり、無関係な領域を誤ってラベル付けしたりする「幻覚」現象を示します。既存のセグメンテーション幻覚の評価プロトコルは、主にラベルやテキストの幻覚に焦点を当てており、視覚的コンテキストを操作しないため、重大な失敗を診断する能力が限られています。これに対応して、我々は反事実的視覚推論の観点から視覚接地における幻覚を評価するために特別に設計された最初のベンチマークであるHalluSegBenchを導入します。このベンチマークは、281のユニークなオブジェクトクラスにまたがる1340の反事実的インスタンスペアからなる新しいデータセットと、視覚的に一貫したシーン編集下での幻覚感度を定量化する新たに導入された一連のメトリクスで構成されています。最先端の視覚言語セグメンテーションモデルを用いたHalluSegBenchでの実験により、視覚駆動型の幻覚がラベル駆動型の幻覚よりもはるかに頻繁に発生し、モデルが誤ったセグメンテーションを継続することが明らかになり、接地の忠実性を診断するための反事実的推論の必要性が強調されました。
English
Recent progress in vision-language segmentation has significantly advanced grounded visual understanding. However, these models often exhibit hallucinations by producing segmentation masks for objects not grounded in the image content or by incorrectly labeling irrelevant regions. Existing evaluation protocols for segmentation hallucination primarily focus on label or textual hallucinations without manipulating the visual context, limiting their capacity to diagnose critical failures. In response, we introduce HalluSegBench, the first benchmark specifically designed to evaluate hallucinations in visual grounding through the lens of counterfactual visual reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual instance pairs spanning 281 unique object classes, and a set of newly introduced metrics that quantify hallucination sensitivity under visually coherent scene edits. Experiments on HalluSegBench with state-of-the-art vision-language segmentation models reveal that vision-driven hallucinations are significantly more prevalent than label-driven ones, with models often persisting in false segmentation, highlighting the need for counterfactual reasoning to diagnose grounding fidelity.
PDF21July 4, 2025