ChatPaper.aiChatPaper

DASH: Erkennung und Bewertung systematischer Halluzinationen von visuell-sprachlichen Modellen

DASH: Detection and Assessment of Systematic Hallucinations of VLMs

March 30, 2025
Autoren: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
cs.AI

Zusammenfassung

Vision-Language-Modelle (VLMs) neigen zu Objekthalluzinationen, bei denen sie fälschlicherweise das Vorhandensein bestimmter Objekte in einem Bild angeben. Bestehende Benchmarks quantifizieren Halluzinationen mithilfe relativ kleiner, annotierter Datensätze. Dieser Ansatz ist jedoch i) unzureichend, um Halluzinationen zu bewerten, die in offenen Umgebungen auftreten, in denen VLMs weit verbreitet sind, und ii) ungeeignet, um systematische Fehler in VLMs zu erkennen. Wir schlagen DASH (Detection and Assessment of Systematic Hallucinations) vor, eine automatische, groß angelegte Pipeline, die darauf abzielt, systematische Halluzinationen von VLMs in realen Bildern in einer offenen Umgebung zu identifizieren. Eine Schlüsselkomponente ist DASH-OPT für die bildbasierte Suche, bei der wir über die „natürliche Bildmannigfaltigkeit“ optimieren, um Bilder zu generieren, die das VLM in die Irre führen. Die Ausgabe von DASH besteht aus Clustern von realen und semantisch ähnlichen Bildern, bei denen das VLM ein Objekt halluziniert. Wir wenden DASH auf PaliGemma und zwei LLaVA-NeXT-Modelle über 380 Objektklassen an und finden insgesamt mehr als 19k Cluster mit 950k Bildern. Wir untersuchen die Übertragung der identifizierten systematischen Halluzinationen auf andere VLMs und zeigen, dass das Fine-Tuning von PaliGemma mit den modellspezifischen Bildern, die mit DASH erhalten wurden, Objekthalluzinationen reduziert. Code und Daten sind verfügbar unter https://YanNeu.github.io/DASH.
English
Vision-language models (VLMs) are prone to object hallucinations, where they erroneously indicate the presenceof certain objects in an image. Existing benchmarks quantify hallucinations using relatively small, labeled datasets. However, this approach is i) insufficient to assess hallucinations that arise in open-world settings, where VLMs are widely used, and ii) inadequate for detecting systematic errors in VLMs. We propose DASH (Detection and Assessment of Systematic Hallucinations), an automatic, large-scale pipeline designed to identify systematic hallucinations of VLMs on real-world images in an open-world setting. A key component is DASH-OPT for image-based retrieval, where we optimize over the ''natural image manifold'' to generate images that mislead the VLM. The output of DASH consists of clusters of real and semantically similar images for which the VLM hallucinates an object. We apply DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in total, find more than 19k clusters with 950k images. We study the transfer of the identified systematic hallucinations to other VLMs and show that fine-tuning PaliGemma with the model-specific images obtained with DASH mitigates object hallucinations. Code and data are available at https://YanNeu.github.io/DASH.

Summary

AI-Generated Summary

PDF122April 3, 2025