AUTOHALLUSION: Generazione Automatica di Benchmark per le Allucinazioni nei Modelli Visione-Linguaggio
AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
June 16, 2024
Autori: Xiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu, Xijun Wang, Ruiqi Xian, Abhinav Shrivastava, Furong Huang, Jordan Lee Boyd-Graber, Tianyi Zhou, Dinesh Manocha
cs.AI
Abstract
I grandi modelli visione-linguaggio (LVLM) allucinano: determinati indizi contestuali in un'immagine possono innescare un ragionamento eccessivamente sicuro e scorretto del modulo linguistico su oggetti anomali o ipotetici. Sebbene siano stati sviluppati alcuni benchmark per indagare le allucinazioni degli LVLM, si basano principalmente su casi limite costruiti manualmente, i cui schemi di fallimento potrebbero difficilmente generalizzarsi, e il fine-tuning su di essi potrebbe comprometterne la validità. Ciò ci motiva a sviluppare il primo approccio automatico di generazione di benchmark, AUTOHALLUSION, che sfrutta alcune strategie principali per creare esempi diversificati di allucinazioni. Esso esplora i moduli linguistici negli LVLM alla ricerca di indizi contestuali e li utilizza per sintetizzare immagini mediante: (1) l'aggiunta di oggetti anomali rispetto agli indizi contestuali; (2) per due oggetti che co-occorrono, mantenere uno ed escludere l'altro; o (3) rimuovere oggetti strettamente legati agli indizi contestuali. Successivamente, genera domande basate sulle immagini le cui risposte vere contraddicono il priore del modulo linguistico. Un modello deve superare i pregiudizi contestuali e le distrazioni per raggiungere risposte corrette, mentre risposte errate o incoerenti indicano allucinazioni. AUTOHALLUSION ci consente di creare nuovi benchmark al costo minimo, superando così la fragilità dei benchmark costruiti manualmente. Rivela inoltre schemi e ragioni comuni di fallimento, fornendo intuizioni chiave per rilevare, evitare o controllare le allucinazioni. Valutazioni complete dei migliori LVLM, ad esempio GPT-4V(ision), Gemini Pro Vision, Claude 3 e LLaVA-1.5, mostrano un tasso di successo del 97,7% e del 98,7% nell'induzione di allucinazioni sui dataset sintetici e reali di AUTOHALLUSION, aprendo la strada a una lunga battaglia contro le allucinazioni.
English
Large vision-language models (LVLMs) hallucinate: certain context cues in an
image may trigger the language module's overconfident and incorrect reasoning
on abnormal or hypothetical objects. Though a few benchmarks have been
developed to investigate LVLM hallucinations, they mainly rely on hand-crafted
corner cases whose fail patterns may hardly generalize, and finetuning on them
could undermine their validity. These motivate us to develop the first
automatic benchmark generation approach, AUTOHALLUSION, that harnesses a few
principal strategies to create diverse hallucination examples. It probes the
language modules in LVLMs for context cues and uses them to synthesize images
by: (1) adding objects abnormal to the context cues; (2) for two co-occurring
objects, keeping one and excluding the other; or (3) removing objects closely
tied to the context cues. It then generates image-based questions whose
ground-truth answers contradict the language module's prior. A model has to
overcome contextual biases and distractions to reach correct answers, while
incorrect or inconsistent answers indicate hallucinations. AUTOHALLUSION
enables us to create new benchmarks at the minimum cost and thus overcomes the
fragility of hand-crafted benchmarks. It also reveals common failure patterns
and reasons, providing key insights to detect, avoid, or control
hallucinations. Comprehensive evaluations of top-tier LVLMs, e.g.,
GPT-4V(ision), Gemini Pro Vision, Claude 3, and LLaVA-1.5, show a 97.7% and
98.7% success rate of hallucination induction on synthetic and real-world
datasets of AUTOHALLUSION, paving the way for a long battle against
hallucinations.