Исследование галлюцинаций крупных мультимодальных моделей в понимании видео: бенчмарк, анализ и методы устранения
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
March 25, 2025
Авторы: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI
Аннотация
Галлюцинации крупных мультимодальных моделей (LMMs), выражающиеся в предоставлении ответов, которые кажутся правильными, но на самом деле ошибочны, ограничивают их надежность и применимость. В данной статье мы исследуем проблему галлюцинаций LMMs в видео-модальности, которая является динамической и более сложной по сравнению со статическими модальностями, такими как изображения и текст. Исходя из этой мотивации, мы сначала представляем комплексный бенчмарк под названием HAVEN для оценки галлюцинаций LMMs в задачах понимания видео. Он построен на трех измерениях: причины галлюцинаций, аспекты галлюцинаций и форматы вопросов, что в итоге дает 6 тысяч вопросов. Затем мы количественно исследуем 7 влиятельных факторов на галлюцинации, таких как продолжительность видео, размеры моделей и способность моделей к рассуждению, с помощью экспериментов на 16 LMMs с использованием представленного бенчмарка. Кроме того, вдохновленные современными моделями мышления, такими как OpenAI o1, мы предлагаем видео-мыслительную модель для снижения галлюцинаций LMMs с помощью контролируемой тонкой настройки рассуждений (SRFT) и оптимизации прямых предпочтений (TDPO) — где SRFT улучшает способности к рассуждению, а TDPO уменьшает галлюцинации в процессе мышления. Обширные эксперименты и анализы демонстрируют эффективность предложенного подхода. В частности, он улучшает базовый показатель на 7,65% по точности в оценке галлюцинаций и снижает показатель смещения на 4,5%. Код и данные доступны по адресу https://github.com/Hongcheng-Gao/HAVEN.
English
The hallucination of large multimodal models (LMMs), providing responses that
appear correct but are actually incorrect, limits their reliability and
applicability. This paper aims to study the hallucination problem of LMMs in
video modality, which is dynamic and more challenging compared to static
modalities like images and text. From this motivation, we first present a
comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in
video understanding tasks. It is built upon three dimensions, i.e.,
hallucination causes, hallucination aspects, and question formats, resulting in
6K questions. Then, we quantitatively study 7 influential factors on
hallucinations, e.g., duration time of videos, model sizes, and model
reasoning, via experiments of 16 LMMs on the presented benchmark. In addition,
inspired by recent thinking models like OpenAI o1, we propose a video-thinking
model to mitigate the hallucinations of LMMs via supervised reasoning
fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT
enhances reasoning capabilities while TDPO reduces hallucinations in the
thinking process. Extensive experiments and analyses demonstrate the
effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on
hallucination evaluation and reduces the bias score by 4.5%. The code and data
are public at https://github.com/Hongcheng-Gao/HAVEN.Summary
AI-Generated Summary