Видеохоллуцинатор: Оценка внутренних и внешних галлюцинаций в Больших видео-языковых моделях
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
June 24, 2024
Авторы: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI
Аннотация
Недавние достижения в области мультимодальных крупных языковых моделей (MLLM) расширили их возможности до понимания видео. Тем не менее, эти модели часто страдают от "галлюцинаций", когда генерируется несвязанное или бессмысленное содержание, отклоняющееся от фактического контекста видео. В данной работе представлен VideoHallucer, первый всесторонний бенчмарк для обнаружения галлюцинаций в крупных видео-языковых моделях (LVLM). VideoHallucer классифицирует галлюцинации на два основных типа: внутренние и внешние, предлагая дополнительные подкатегории для детального анализа, включая объектно-относительные, временные, семантические детали, внешние фактические и внешние неверные галлюцинации. Мы применяем адверсариальный бинарный метод VideoQA для всесторонней оценки, где стратегически создаются пары базовых и галлюцинированных вопросов. Оценив одиннадцать LVLM на VideoHallucer, мы выявляем, что i) большинство текущих моделей имеют значительные проблемы с галлюцинациями; ii) хотя масштабирование наборов данных и параметров улучшает способность моделей обнаруживать базовые визуальные подсказки и контрфактические утверждения, это приносит ограниченную пользу для обнаружения внешних фактических галлюцинаций; iii) существующие модели более способны обнаруживать факты, чем идентифицировать галлюцинации. Как побочный результат, эти анализы дополнительно направляют развитие нашей структуры self-PEP, достигая в среднем улучшения устойчивости к галлюцинациям на 5,38% для всех архитектур моделей.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended
their capabilities to video understanding. Yet, these models are often plagued
by "hallucinations", where irrelevant or nonsensical content is generated,
deviating from the actual video context. This work introduces VideoHallucer,
the first comprehensive benchmark for hallucination detection in large
video-language models (LVLMs). VideoHallucer categorizes hallucinations into
two main types: intrinsic and extrinsic, offering further subcategories for
detailed analysis, including object-relation, temporal, semantic detail,
extrinsic factual, and extrinsic non-factual hallucinations. We adopt an
adversarial binary VideoQA method for comprehensive evaluation, where pairs of
basic and hallucinated questions are crafted strategically. By evaluating
eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models
exhibit significant issues with hallucinations; ii) while scaling datasets and
parameters improves models' ability to detect basic visual cues and
counterfactuals, it provides limited benefit for detecting extrinsic factual
hallucinations; iii) existing models are more adept at detecting facts than
identifying hallucinations. As a byproduct, these analyses further instruct the
development of our self-PEP framework, achieving an average of 5.38%
improvement in hallucination resistance across all model architectures.Summary
AI-Generated Summary