DASH: Detección y Evaluación de Alucinaciones Sistemáticas en Modelos de Lenguaje Visual
DASH: Detection and Assessment of Systematic Hallucinations of VLMs
March 30, 2025
Autores: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs) son propensos a las alucinaciones de objetos, donde indican erróneamente la presencia de ciertos objetos en una imagen. Los benchmarks existentes cuantifican estas alucinaciones utilizando conjuntos de datos etiquetados relativamente pequeños. Sin embargo, este enfoque es i) insuficiente para evaluar las alucinaciones que surgen en entornos de mundo abierto, donde los VLMs se utilizan ampliamente, y ii) inadecuado para detectar errores sistemáticos en los VLMs. Proponemos DASH (Detección y Evaluación de Alucinaciones Sistemáticas), una pipeline automática y a gran escala diseñada para identificar alucinaciones sistemáticas de VLMs en imágenes del mundo real en un entorno de mundo abierto. Un componente clave es DASH-OPT para la recuperación basada en imágenes, donde optimizamos sobre el "manifold de imágenes naturales" para generar imágenes que engañen al VLM. La salida de DASH consiste en clusters de imágenes reales y semánticamente similares para las cuales el VLM alucina un objeto. Aplicamos DASH a PaliGemma y dos modelos LLaVA-NeXT en 380 clases de objetos y, en total, encontramos más de 19k clusters con 950k imágenes. Estudiamos la transferencia de las alucinaciones sistemáticas identificadas a otros VLMs y demostramos que el fine-tuning de PaliGemma con las imágenes específicas del modelo obtenidas con DASH mitiga las alucinaciones de objetos. El código y los datos están disponibles en https://YanNeu.github.io/DASH.
English
Vision-language models (VLMs) are prone to object hallucinations, where they
erroneously indicate the presenceof certain objects in an image. Existing
benchmarks quantify hallucinations using relatively small, labeled datasets.
However, this approach is i) insufficient to assess hallucinations that arise
in open-world settings, where VLMs are widely used, and ii) inadequate for
detecting systematic errors in VLMs. We propose DASH (Detection and Assessment
of Systematic Hallucinations), an automatic, large-scale pipeline designed to
identify systematic hallucinations of VLMs on real-world images in an
open-world setting. A key component is DASH-OPT for image-based retrieval,
where we optimize over the ''natural image manifold'' to generate images that
mislead the VLM. The output of DASH consists of clusters of real and
semantically similar images for which the VLM hallucinates an object. We apply
DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in
total, find more than 19k clusters with 950k images. We study the transfer of
the identified systematic hallucinations to other VLMs and show that
fine-tuning PaliGemma with the model-specific images obtained with DASH
mitigates object hallucinations. Code and data are available at
https://YanNeu.github.io/DASH.