ChatPaper.aiChatPaper

HallusionBench : Vous voyez ce que vous pensez ? Ou vous pensez ce que vous voyez ? Un benchmark de raisonnement image-contexte qui met au défi GPT-4V(ision), LLaVA-1.5 et d'autres modèles multi-modaux.

HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

October 23, 2023
Auteurs: Fuxiao Liu, Tianrui Guan, Zongxia Li, Lichang Chen, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou
cs.AI

Résumé

Les grands modèles de langage (LLMs), après avoir été alignés avec des modèles de vision et intégrés dans des modèles vision-langage (VLMs), peuvent apporter des améliorations impressionnantes dans les tâches de raisonnement sur les images. Cela a été démontré par les récentes versions de GPT-4V(ison) et LLaVA-1.5, entre autres. Cependant, la forte priorité linguistique de ces VLMs de pointe peut s'avérer à double tranchant : ils peuvent ignorer le contexte de l'image et se reposer uniquement sur la priorité linguistique (même contradictoire) pour raisonner. En revanche, les modules de vision des VLMs sont moins performants que les LLMs et peuvent produire des représentations visuelles trompeuses, qui sont ensuite traduites en erreurs confiantes par les LLMs. Pour étudier ces deux types d'erreurs des VLMs, à savoir l'hallucination linguistique et l'illusion visuelle, nous avons conçu HallusionBench, un benchmark de raisonnement contextuel sur les images qui reste difficile même pour GPT-4V et LLaVA-1.5. Nous fournissons une analyse détaillée des exemples dans HallusionBench, offrant de nouvelles perspectives sur les illusions ou hallucinations des VLMs et sur la manière de les améliorer à l'avenir. Le benchmark et le codebase seront disponibles sur https://github.com/tianyi-lab/HallusionBench.
English
Large language models (LLMs), after being aligned with vision models and integrated into vision-language models (VLMs), can bring impressive improvement in image reasoning tasks. This was shown by the recently released GPT-4V(ison), LLaVA-1.5, etc. However, the strong language prior in these SOTA LVLMs can be a double-edged sword: they may ignore the image context and solely rely on the (even contradictory) language prior for reasoning. In contrast, the vision modules in VLMs are weaker than LLMs and may result in misleading visual representations, which are then translated to confident mistakes by LLMs. To study these two types of VLM mistakes, i.e., language hallucination and visual illusion, we curated HallusionBench, an image-context reasoning benchmark that is still challenging to even GPT-4V and LLaVA-1.5. We provide a detailed analysis of examples in HallusionBench, which sheds novel insights on the illusion or hallucination of VLMs and how to improve them in the future. The benchmark and codebase will be released at https://github.com/tianyi-lab/HallusionBench.
PDF276December 15, 2024