ChatPaper.aiChatPaper

Hallucination multi-objets dans les modèles vision-langage

Multi-Object Hallucination in Vision-Language Models

July 8, 2024
Auteurs: Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai
cs.AI

Résumé

Les grands modèles de langage visuel (LVLMs) souffrent souvent d'hallucinations d'objets, générant des objets absents des images fournies. Alors que les benchmarks actuels pour les hallucinations d'objets se concentrent principalement sur la présence d'une seule classe d'objets plutôt que sur des entités individuelles, ce travail étudie systématiquement les hallucinations multi-objets, examinant comment les modèles perçoivent de manière erronée (par exemple, inventent des objets inexistants ou se laissent distraire) lorsqu'ils sont chargés de se concentrer sur plusieurs objets simultanément. Nous introduisons l'évaluation par sondage d'objets basée sur la reconnaissance (ROPE), un protocole d'évaluation automatisé qui prend en compte la distribution des classes d'objets dans une seule image lors des tests et utilise des invites visuelles référentielles pour éliminer les ambiguïtés. Grâce à des études empiriques approfondies et à l'analyse des facteurs potentiels conduisant aux hallucinations multi-objets, nous avons constaté que (1) les LVLMs souffrent de plus d'hallucinations lorsqu'ils se concentrent sur plusieurs objets par rapport à un seul objet. (2) La distribution des classes d'objets testées affecte les comportements d'hallucination, indiquant que les LVLMs peuvent suivre des raccourcis et des corrélations fallacieuses. (3) Les comportements hallucinatoires sont influencés par des facteurs spécifiques aux données, la saillance et la fréquence, ainsi que par les comportements intrinsèques des modèles. Nous espérons permettre aux LVLMs de reconnaître et de raisonner sur plusieurs objets qui se produisent souvent dans des scènes visuelles réalistes, fournir des insights et quantifier nos progrès vers l'atténuation de ces problèmes.
English
Large vision language models (LVLMs) often suffer from object hallucination, producing objects not present in the given images. While current benchmarks for object hallucination primarily concentrate on the presence of a single object class rather than individual entities, this work systematically investigates multi-object hallucination, examining how models misperceive (e.g., invent nonexistent objects or become distracted) when tasked with focusing on multiple objects simultaneously. We introduce Recognition-based Object Probing Evaluation (ROPE), an automated evaluation protocol that considers the distribution of object classes within a single image during testing and uses visual referring prompts to eliminate ambiguity. With comprehensive empirical studies and analysis of potential factors leading to multi-object hallucination, we found that (1) LVLMs suffer more hallucinations when focusing on multiple objects compared to a single object. (2) The tested object class distribution affects hallucination behaviors, indicating that LVLMs may follow shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced by data-specific factors, salience and frequency, and model intrinsic behaviors. We hope to enable LVLMs to recognize and reason about multiple objects that often occur in realistic visual scenes, provide insights, and quantify our progress towards mitigating the issues.

Summary

AI-Generated Summary

PDF122November 28, 2024