AUTOALUCINAÇÃO: Geração Automática de Referenciais de Alucinação para Modelos de Visão e Linguagem
AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
June 16, 2024
Autores: Xiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu, Xijun Wang, Ruiqi Xian, Abhinav Shrivastava, Furong Huang, Jordan Lee Boyd-Graber, Tianyi Zhou, Dinesh Manocha
cs.AI
Resumo
Grandes modelos de visão e linguagem (LVLMs) sofrem alucinações: certos indícios de contexto em uma imagem podem acionar o módulo de linguagem para raciocinar de forma excessivamente confiante e incorreta sobre objetos anormais ou hipotéticos. Embora alguns benchmarks tenham sido desenvolvidos para investigar alucinações em LVLMs, eles dependem principalmente de casos extremos feitos manualmente, cujos padrões de falha podem ter pouca generalização, e o ajuste fino neles poderia comprometer sua validade. Isso nos motiva a desenvolver a primeira abordagem de geração automática de benchmarks, AUTOHALLUSION, que utiliza algumas estratégias principais para criar exemplos de alucinação diversos. Ele investiga os módulos de linguagem em LVLMs em busca de indícios de contexto e os utiliza para sintetizar imagens, adicionando objetos anômalos aos indícios de contexto; mantendo um objeto e excluindo o outro para dois objetos que ocorrem juntos; ou removendo objetos intimamente ligados aos indícios de contexto. Em seguida, gera perguntas baseadas em imagens cujas respostas verdadeiras contradizem as premissas do módulo de linguagem. Um modelo precisa superar vieses e distrações contextuais para chegar a respostas corretas, enquanto respostas incorretas ou inconsistentes indicam alucinações. O AUTOHALLUSION nos permite criar novos benchmarks com o mínimo custo, superando assim a fragilidade dos benchmarks feitos manualmente. Ele também revela padrões comuns de falha e razões, fornecendo insights importantes para detectar, evitar ou controlar alucinações. Avaliações abrangentes dos principais LVLMs, como GPT-4V(ision), Gemini Pro Vision, Claude 3 e LLaVA-1.5, mostram uma taxa de sucesso de indução de alucinação de 97,7% e 98,7% em conjuntos de dados sintéticos e do mundo real do AUTOHALLUSION, abrindo caminho para uma longa batalha contra as alucinações.
English
Large vision-language models (LVLMs) hallucinate: certain context cues in an
image may trigger the language module's overconfident and incorrect reasoning
on abnormal or hypothetical objects. Though a few benchmarks have been
developed to investigate LVLM hallucinations, they mainly rely on hand-crafted
corner cases whose fail patterns may hardly generalize, and finetuning on them
could undermine their validity. These motivate us to develop the first
automatic benchmark generation approach, AUTOHALLUSION, that harnesses a few
principal strategies to create diverse hallucination examples. It probes the
language modules in LVLMs for context cues and uses them to synthesize images
by: (1) adding objects abnormal to the context cues; (2) for two co-occurring
objects, keeping one and excluding the other; or (3) removing objects closely
tied to the context cues. It then generates image-based questions whose
ground-truth answers contradict the language module's prior. A model has to
overcome contextual biases and distractions to reach correct answers, while
incorrect or inconsistent answers indicate hallucinations. AUTOHALLUSION
enables us to create new benchmarks at the minimum cost and thus overcomes the
fragility of hand-crafted benchmarks. It also reveals common failure patterns
and reasons, providing key insights to detect, avoid, or control
hallucinations. Comprehensive evaluations of top-tier LVLMs, e.g.,
GPT-4V(ision), Gemini Pro Vision, Claude 3, and LLaVA-1.5, show a 97.7% and
98.7% success rate of hallucination induction on synthetic and real-world
datasets of AUTOHALLUSION, paving the way for a long battle against
hallucinations.