HalluSegBench : Raisonnement visuel contrefactuel pour l'évaluation des hallucinations dans la segmentation
HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation
June 26, 2025
Auteurs: Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
cs.AI
Résumé
Les récents progrès dans le domaine de la segmentation vision-langage ont considérablement fait avancer la compréhension visuelle ancrée. Cependant, ces modèles présentent souvent des hallucinations en produisant des masques de segmentation pour des objets non ancrés dans le contenu de l'image ou en étiquetant incorrectement des régions non pertinentes. Les protocoles d'évaluation existants pour les hallucinations de segmentation se concentrent principalement sur les hallucinations d'étiquettes ou textuelles sans manipuler le contexte visuel, limitant ainsi leur capacité à diagnostiquer les échecs critiques. En réponse, nous introduisons HalluSegBench, le premier benchmark spécifiquement conçu pour évaluer les hallucinations dans l'ancrage visuel à travers le prisme du raisonnement visuel contrefactuel. Notre benchmark comprend un nouvel ensemble de données de 1340 paires d'instances contrefactuelles couvrant 281 classes d'objets uniques, ainsi qu'un ensemble de nouvelles métriques qui quantifient la sensibilité aux hallucinations sous des modifications de scènes visuellement cohérentes. Les expériences sur HalluSegBench avec des modèles de segmentation vision-langage de pointe révèlent que les hallucinations pilotées par la vision sont significativement plus fréquentes que celles pilotées par les étiquettes, les modèles persistant souvent dans une segmentation erronée, soulignant la nécessité d'un raisonnement contrefactuel pour diagnostiquer la fidélité de l'ancrage.
English
Recent progress in vision-language segmentation has significantly advanced
grounded visual understanding. However, these models often exhibit
hallucinations by producing segmentation masks for objects not grounded in the
image content or by incorrectly labeling irrelevant regions. Existing
evaluation protocols for segmentation hallucination primarily focus on label or
textual hallucinations without manipulating the visual context, limiting their
capacity to diagnose critical failures. In response, we introduce
HalluSegBench, the first benchmark specifically designed to evaluate
hallucinations in visual grounding through the lens of counterfactual visual
reasoning. Our benchmark consists of a novel dataset of 1340 counterfactual
instance pairs spanning 281 unique object classes, and a set of newly
introduced metrics that quantify hallucination sensitivity under visually
coherent scene edits. Experiments on HalluSegBench with state-of-the-art
vision-language segmentation models reveal that vision-driven hallucinations
are significantly more prevalent than label-driven ones, with models often
persisting in false segmentation, highlighting the need for counterfactual
reasoning to diagnose grounding fidelity.