DASH: 시각적 언어 모델의 체계적 환각 현상 탐지 및 평가
DASH: Detection and Assessment of Systematic Hallucinations of VLMs
March 30, 2025
저자: Maximilian Augustin, Yannic Neuhaus, Matthias Hein
cs.AI
초록
비전-언어 모델(VLMs)은 특정 객체가 이미지에 존재한다고 잘못 판단하는 객체 환각 현상에 취약합니다. 기존 벤치마크는 비교적 작은 레이블링된 데이터셋을 사용하여 환각 현상을 정량화합니다. 그러나 이 접근 방식은 i) VLMs이 널리 사용되는 개방형 환경에서 발생하는 환각 현상을 평가하기에는 부족하며, ii) VLMs의 체계적 오류를 탐지하기에는 적절하지 않습니다. 우리는 DASH(Detection and Assessment of Systematic Hallucinations)를 제안합니다. 이는 개방형 환경에서 실제 이미지에 대한 VLMs의 체계적 환각 현상을 식별하기 위해 설계된 자동화된 대규모 파이프라인입니다. 핵심 구성 요소는 이미지 기반 검색을 위한 DASH-OPT로, '자연 이미지 매니폴드'를 최적화하여 VLM을 오도하는 이미지를 생성합니다. DASH의 출력은 VLM이 객체를 환각하는 실제 및 의미적으로 유사한 이미지들의 클러스터로 구성됩니다. 우리는 DASH를 PaliGemma와 두 개의 LLaVA-NeXT 모델에 적용하여 380개 객체 클래스에 걸쳐 총 950k 이미지로 이루어진 19k개 이상의 클러스터를 발견했습니다. 우리는 식별된 체계적 환각 현상이 다른 VLMs로 전이되는지를 연구하고, DASH로 얻은 모델별 이미지를 사용하여 PaliGemma를 미세 조정함으로써 객체 환각 현상을 완화할 수 있음을 보여줍니다. 코드와 데이터는 https://YanNeu.github.io/DASH에서 확인할 수 있습니다.
English
Vision-language models (VLMs) are prone to object hallucinations, where they
erroneously indicate the presenceof certain objects in an image. Existing
benchmarks quantify hallucinations using relatively small, labeled datasets.
However, this approach is i) insufficient to assess hallucinations that arise
in open-world settings, where VLMs are widely used, and ii) inadequate for
detecting systematic errors in VLMs. We propose DASH (Detection and Assessment
of Systematic Hallucinations), an automatic, large-scale pipeline designed to
identify systematic hallucinations of VLMs on real-world images in an
open-world setting. A key component is DASH-OPT for image-based retrieval,
where we optimize over the ''natural image manifold'' to generate images that
mislead the VLM. The output of DASH consists of clusters of real and
semantically similar images for which the VLM hallucinates an object. We apply
DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in
total, find more than 19k clusters with 950k images. We study the transfer of
the identified systematic hallucinations to other VLMs and show that
fine-tuning PaliGemma with the model-specific images obtained with DASH
mitigates object hallucinations. Code and data are available at
https://YanNeu.github.io/DASH.Summary
AI-Generated Summary