DASH: Обнаружение и оценка систематических галлюцинаций в визуально-языковых моделях
DASH: Detection and Assessment of Systematic Hallucinations of VLMs
March 30, 2025
Авторы: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
cs.AI
Аннотация
Модели, работающие с визуальными и текстовыми данными (VLMs), склонны к галлюцинациям объектов, когда они ошибочно указывают на наличие определённых объектов на изображении. Существующие бенчмарки оценивают такие галлюцинации с использованием относительно небольших размеченных наборов данных. Однако этот подход i) недостаточен для оценки галлюцинаций, возникающих в условиях открытого мира, где VLMs широко применяются, и ii) не подходит для выявления систематических ошибок в VLMs. Мы предлагаем DASH (Detection and Assessment of Systematic Hallucinations), автоматизированный масштабируемый конвейер, предназначенный для выявления систематических галлюцинаций VLMs на реальных изображениях в условиях открытого мира. Ключевым компонентом является DASH-OPT для поиска на основе изображений, где мы оптимизируем на "многообразии естественных изображений", чтобы генерировать изображения, которые вводят VLM в заблуждение. Результат работы DASH включает кластеры реальных и семантически схожих изображений, для которых VLM галлюцинирует объект. Мы применяем DASH к моделям PaliGemma и двум версиям LLaVA-NeXT для 380 классов объектов и в общей сложности находим более 19 тыс. кластеров с 950 тыс. изображений. Мы изучаем перенос выявленных систематических галлюцинаций на другие VLMs и показываем, что дообучение PaliGemma с использованием специфичных для модели изображений, полученных с помощью DASH, снижает количество галлюцинаций объектов. Код и данные доступны по адресу https://YanNeu.github.io/DASH.
English
Vision-language models (VLMs) are prone to object hallucinations, where they
erroneously indicate the presenceof certain objects in an image. Existing
benchmarks quantify hallucinations using relatively small, labeled datasets.
However, this approach is i) insufficient to assess hallucinations that arise
in open-world settings, where VLMs are widely used, and ii) inadequate for
detecting systematic errors in VLMs. We propose DASH (Detection and Assessment
of Systematic Hallucinations), an automatic, large-scale pipeline designed to
identify systematic hallucinations of VLMs on real-world images in an
open-world setting. A key component is DASH-OPT for image-based retrieval,
where we optimize over the ''natural image manifold'' to generate images that
mislead the VLM. The output of DASH consists of clusters of real and
semantically similar images for which the VLM hallucinates an object. We apply
DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in
total, find more than 19k clusters with 950k images. We study the transfer of
the identified systematic hallucinations to other VLMs and show that
fine-tuning PaliGemma with the model-specific images obtained with DASH
mitigates object hallucinations. Code and data are available at
https://YanNeu.github.io/DASH.Summary
AI-Generated Summary