Множественная галлюцинация объектов в моделях видео-языкового восприятия
Multi-Object Hallucination in Vision-Language Models
July 8, 2024
Авторы: Xuweiyi Chen, Ziqiao Ma, Xuejun Zhang, Sihan Xu, Shengyi Qian, Jianing Yang, David F. Fouhey, Joyce Chai
cs.AI
Аннотация
Большие модели языка для компьютерного зрения (LVLM) часто страдают от галлюцинаций объектов, создавая объекты, которых нет на предоставленных изображениях. В то время как текущие бенчмарки для галлюцинаций объектов в основном сосредотачиваются на наличии отдельного класса объектов, а не отдельных сущностей, данная работа систематически исследует множественные галлюцинации объектов, изучая, как модели неправильно воспринимают (например, изобретают несуществующие объекты или отвлекаются), когда им поручают сосредоточиться на нескольких объектах одновременно. Мы представляем Recognition-based Object Probing Evaluation (ROPE), автоматизированный протокол оценки, который учитывает распределение классов объектов в одном изображении во время тестирования и использует визуальные указания для исключения неоднозначности. Проведя обширные эмпирические исследования и анализ потенциальных факторов, приводящих к множественным галлюцинациям объектов, мы обнаружили, что (1) LVLM чаще страдают от галлюцинаций при сосредоточении на нескольких объектах по сравнению с одним объектом. (2) Распределение классов тестируемых объектов влияет на поведение галлюцинаций, указывая на то, что LVLM могут использовать упрощения и случайные корреляции. (3) Галлюцинаторное поведение подвержено влиянию факторов, специфичных для данных, выразительности и частоты, а также внутренних характеристик модели. Мы надеемся, что сможем обучить LVLM распознавать и рассуждать о нескольких объектах, которые часто встречаются в реалистичных визуальных сценах, предоставить понимание и количественно оценить наши успехи в устранении проблем.
English
Large vision language models (LVLMs) often suffer from object hallucination,
producing objects not present in the given images. While current benchmarks for
object hallucination primarily concentrate on the presence of a single object
class rather than individual entities, this work systematically investigates
multi-object hallucination, examining how models misperceive (e.g., invent
nonexistent objects or become distracted) when tasked with focusing on multiple
objects simultaneously. We introduce Recognition-based Object Probing
Evaluation (ROPE), an automated evaluation protocol that considers the
distribution of object classes within a single image during testing and uses
visual referring prompts to eliminate ambiguity. With comprehensive empirical
studies and analysis of potential factors leading to multi-object
hallucination, we found that (1) LVLMs suffer more hallucinations when focusing
on multiple objects compared to a single object. (2) The tested object class
distribution affects hallucination behaviors, indicating that LVLMs may follow
shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced
by data-specific factors, salience and frequency, and model intrinsic
behaviors. We hope to enable LVLMs to recognize and reason about multiple
objects that often occur in realistic visual scenes, provide insights, and
quantify our progress towards mitigating the issues.Summary
AI-Generated Summary