DASH: Detecção e Avaliação de Alucinações Sistemáticas em Modelos de Linguagem Visual
DASH: Detection and Assessment of Systematic Hallucinations of VLMs
March 30, 2025
Autores: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
cs.AI
Resumo
Modelos visão-linguagem (VLMs) são propensos a alucinações de objetos, onde eles indicam erroneamente a presença de certos objetos em uma imagem. Os benchmarks existentes quantificam alucinações usando conjuntos de dados rotulados relativamente pequenos. No entanto, essa abordagem é i) insuficiente para avaliar alucinações que surgem em configurações de mundo aberto, onde VLMs são amplamente utilizados, e ii) inadequada para detectar erros sistemáticos em VLMs. Propomos o DASH (Detecção e Avaliação de Alucinações Sistemáticas), um pipeline automático e em larga escala projetado para identificar alucinações sistemáticas de VLMs em imagens do mundo real em um cenário de mundo aberto. Um componente-chave é o DASH-OPT para recuperação baseada em imagens, onde otimizamos sobre a "variedade de imagens naturais" para gerar imagens que enganam o VLM. A saída do DASH consiste em clusters de imagens reais e semanticamente semelhantes para as quais o VLM alucina um objeto. Aplicamos o DASH ao PaliGemma e a dois modelos LLaVA-NeXT em 380 classes de objetos e, no total, encontramos mais de 19k clusters com 950k imagens. Estudamos a transferência das alucinações sistemáticas identificadas para outros VLMs e mostramos que o ajuste fino do PaliGemma com as imagens específicas do modelo obtidas com o DASH mitiga as alucinações de objetos. O código e os dados estão disponíveis em https://YanNeu.github.io/DASH.
English
Vision-language models (VLMs) are prone to object hallucinations, where they
erroneously indicate the presenceof certain objects in an image. Existing
benchmarks quantify hallucinations using relatively small, labeled datasets.
However, this approach is i) insufficient to assess hallucinations that arise
in open-world settings, where VLMs are widely used, and ii) inadequate for
detecting systematic errors in VLMs. We propose DASH (Detection and Assessment
of Systematic Hallucinations), an automatic, large-scale pipeline designed to
identify systematic hallucinations of VLMs on real-world images in an
open-world setting. A key component is DASH-OPT for image-based retrieval,
where we optimize over the ''natural image manifold'' to generate images that
mislead the VLM. The output of DASH consists of clusters of real and
semantically similar images for which the VLM hallucinates an object. We apply
DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in
total, find more than 19k clusters with 950k images. We study the transfer of
the identified systematic hallucinations to other VLMs and show that
fine-tuning PaliGemma with the model-specific images obtained with DASH
mitigates object hallucinations. Code and data are available at
https://YanNeu.github.io/DASH.Summary
AI-Generated Summary