ChatPaper.aiChatPaper

DASH : Détection et Évaluation des Hallucinations Systématiques des Modèles Visio-Linguistiques

DASH: Detection and Assessment of Systematic Hallucinations of VLMs

March 30, 2025
Auteurs: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
cs.AI

Résumé

Les modèles vision-langage (VLMs) sont sujets à des hallucinations d'objets, où ils indiquent à tort la présence de certains objets dans une image. Les benchmarks existants quantifient ces hallucinations en utilisant des ensembles de données étiquetés relativement petits. Cependant, cette approche est i) insuffisante pour évaluer les hallucinations qui surviennent dans des contextes en monde ouvert, où les VLMs sont largement utilisés, et ii) inadéquate pour détecter les erreurs systématiques dans les VLMs. Nous proposons DASH (Detection and Assessment of Systematic Hallucinations), un pipeline automatique et à grande échelle conçu pour identifier les hallucinations systématiques des VLMs sur des images du monde réel dans un contexte en monde ouvert. Un composant clé est DASH-OPT pour la récupération d'images basée sur l'image, où nous optimisons sur la « variété des images naturelles » pour générer des images qui induisent en erreur le VLM. Le résultat de DASH consiste en des clusters d'images réelles et sémantiquement similaires pour lesquelles le VLM hallucine un objet. Nous appliquons DASH à PaliGemma et à deux modèles LLaVA-NeXT à travers 380 classes d'objets et, au total, trouvons plus de 19k clusters avec 950k images. Nous étudions le transfert des hallucinations systématiques identifiées à d'autres VLMs et montrons que le fine-tuning de PaliGemma avec les images spécifiques au modèle obtenues avec DASH atténue les hallucinations d'objets. Le code et les données sont disponibles à l'adresse https://YanNeu.github.io/DASH.
English
Vision-language models (VLMs) are prone to object hallucinations, where they erroneously indicate the presenceof certain objects in an image. Existing benchmarks quantify hallucinations using relatively small, labeled datasets. However, this approach is i) insufficient to assess hallucinations that arise in open-world settings, where VLMs are widely used, and ii) inadequate for detecting systematic errors in VLMs. We propose DASH (Detection and Assessment of Systematic Hallucinations), an automatic, large-scale pipeline designed to identify systematic hallucinations of VLMs on real-world images in an open-world setting. A key component is DASH-OPT for image-based retrieval, where we optimize over the ''natural image manifold'' to generate images that mislead the VLM. The output of DASH consists of clusters of real and semantically similar images for which the VLM hallucinates an object. We apply DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in total, find more than 19k clusters with 950k images. We study the transfer of the identified systematic hallucinations to other VLMs and show that fine-tuning PaliGemma with the model-specific images obtained with DASH mitigates object hallucinations. Code and data are available at https://YanNeu.github.io/DASH.

Summary

AI-Generated Summary

PDF122April 3, 2025