ChatPaper.aiChatPaper

DASH: Detectie en Evaluatie van Systematische Hallucinaties in Visuele Taalmodellen

DASH: Detection and Assessment of Systematic Hallucinations of VLMs

March 30, 2025
Auteurs: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
cs.AI

Samenvatting

Vision-language modellen (VLMs) zijn gevoelig voor objecthallucinaties, waarbij ze ten onrechte de aanwezigheid van bepaalde objecten in een afbeelding aangeven. Bestaande benchmarks kwantificeren hallucinaties met behulp van relatief kleine, gelabelde datasets. Deze aanpak is echter i) onvoldoende om hallucinaties te beoordelen die ontstaan in open-wereldomgevingen, waar VLMs veelvuldig worden gebruikt, en ii) ontoereikend voor het detecteren van systematische fouten in VLMs. Wij stellen DASH (Detection and Assessment of Systematic Hallucinations) voor, een automatische, grootschalige pipeline die is ontworpen om systematische hallucinaties van VLMs op real-world afbeeldingen in een open-wereldomgeving te identificeren. Een belangrijk onderdeel is DASH-OPT voor op afbeeldingen gebaseerde retrieval, waarbij we optimaliseren over het 'natuurlijke afbeeldingsmanifold' om afbeeldingen te genereren die de VLM misleiden. De output van DASH bestaat uit clusters van echte en semantisch vergelijkbare afbeeldingen waarvoor de VLM een object hallucineert. We passen DASH toe op PaliGemma en twee LLaVA-NeXT modellen over 380 objectklassen en vinden in totaal meer dan 19k clusters met 950k afbeeldingen. We bestuderen de overdracht van de geïdentificeerde systematische hallucinaties naar andere VLMs en laten zien dat fine-tuning van PaliGemma met de modelspecifieke afbeeldingen die met DASH zijn verkregen, objecthallucinaties vermindert. Code en data zijn beschikbaar op https://YanNeu.github.io/DASH.
English
Vision-language models (VLMs) are prone to object hallucinations, where they erroneously indicate the presenceof certain objects in an image. Existing benchmarks quantify hallucinations using relatively small, labeled datasets. However, this approach is i) insufficient to assess hallucinations that arise in open-world settings, where VLMs are widely used, and ii) inadequate for detecting systematic errors in VLMs. We propose DASH (Detection and Assessment of Systematic Hallucinations), an automatic, large-scale pipeline designed to identify systematic hallucinations of VLMs on real-world images in an open-world setting. A key component is DASH-OPT for image-based retrieval, where we optimize over the ''natural image manifold'' to generate images that mislead the VLM. The output of DASH consists of clusters of real and semantically similar images for which the VLM hallucinates an object. We apply DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in total, find more than 19k clusters with 950k images. We study the transfer of the identified systematic hallucinations to other VLMs and show that fine-tuning PaliGemma with the model-specific images obtained with DASH mitigates object hallucinations. Code and data are available at https://YanNeu.github.io/DASH.

Summary

AI-Generated Summary

PDF122April 3, 2025