AUTOHALLUSION: Automatische Generatie van Hallucinatiebenchmarks voor Visueel-Taalmodellen
AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
June 16, 2024
Auteurs: Xiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu, Xijun Wang, Ruiqi Xian, Abhinav Shrivastava, Furong Huang, Jordan Lee Boyd-Graber, Tianyi Zhou, Dinesh Manocha
cs.AI
Samenvatting
Grote visie-taalmodellen (LVLMs) hallucineren: bepaalde contextuele aanwijzingen in een afbeelding kunnen het taalmodule overmoedig en incorrect laten redeneren over abnormale of hypothetische objecten. Hoewel enkele benchmarks zijn ontwikkeld om LVLM-hallucinaties te onderzoeken, zijn deze voornamelijk gebaseerd op handmatig gemaakte uitzonderingsgevallen waarvan de faalpatronen moeilijk generaliseerbaar zijn, en het finetunen ervan kan hun validiteit ondermijnen. Dit motiveert ons om de eerste automatische benchmarkgeneratiebenadering te ontwikkelen, AUTOHALLUSION, die een paar hoofdstrategieën benut om diverse hallucinatievoorbeelden te creëren. Het onderzoekt de taalmodules in LVLMs op contextuele aanwijzingen en gebruikt deze om afbeeldingen te synthetiseren door: (1) objecten toe te voegen die abnormaal zijn voor de contextuele aanwijzingen; (2) voor twee samen voorkomende objecten, één te behouden en de andere uit te sluiten; of (3) objecten die nauw verbonden zijn met de contextuele aanwijzingen te verwijderen. Vervolgens genereert het op afbeeldingen gebaseerde vragen waarvan de grondwaarheid-antwoorden in tegenspraak zijn met de prior van de taalmodule. Een model moet contextuele vooroordelen en afleidingen overwinnen om correcte antwoorden te bereiken, terwijl incorrecte of inconsistente antwoorden hallucinaties aangeven. AUTOHALLUSION stelt ons in staat nieuwe benchmarks te creëren tegen minimale kosten en overwint daarmee de kwetsbaarheid van handmatig gemaakte benchmarks. Het onthult ook veelvoorkomende faalpatronen en redenen, wat belangrijke inzichten biedt om hallucinaties te detecteren, te vermijden of te beheersen. Uitgebreide evaluaties van toonaangevende LVLMs, zoals GPT-4V(ision), Gemini Pro Vision, Claude 3 en LLaVA-1.5, tonen een succespercentage van 97,7% en 98,7% voor het induceren van hallucinaties op synthetische en real-world datasets van AUTOHALLUSION, wat de weg vrijmaakt voor een langdurige strijd tegen hallucinaties.
English
Large vision-language models (LVLMs) hallucinate: certain context cues in an
image may trigger the language module's overconfident and incorrect reasoning
on abnormal or hypothetical objects. Though a few benchmarks have been
developed to investigate LVLM hallucinations, they mainly rely on hand-crafted
corner cases whose fail patterns may hardly generalize, and finetuning on them
could undermine their validity. These motivate us to develop the first
automatic benchmark generation approach, AUTOHALLUSION, that harnesses a few
principal strategies to create diverse hallucination examples. It probes the
language modules in LVLMs for context cues and uses them to synthesize images
by: (1) adding objects abnormal to the context cues; (2) for two co-occurring
objects, keeping one and excluding the other; or (3) removing objects closely
tied to the context cues. It then generates image-based questions whose
ground-truth answers contradict the language module's prior. A model has to
overcome contextual biases and distractions to reach correct answers, while
incorrect or inconsistent answers indicate hallucinations. AUTOHALLUSION
enables us to create new benchmarks at the minimum cost and thus overcomes the
fragility of hand-crafted benchmarks. It also reveals common failure patterns
and reasons, providing key insights to detect, avoid, or control
hallucinations. Comprehensive evaluations of top-tier LVLMs, e.g.,
GPT-4V(ision), Gemini Pro Vision, Claude 3, and LLaVA-1.5, show a 97.7% and
98.7% success rate of hallucination induction on synthetic and real-world
datasets of AUTOHALLUSION, paving the way for a long battle against
hallucinations.