ChatPaper.aiChatPaper

Exploración de las Alucinaciones en Modelos Multimodales de Gran Escala para la Comprensión de Videos: Evaluación Comparativa, Análisis y Mitigación

Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation

March 25, 2025
Autores: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI

Resumen

La alucinación de los modelos multimodales grandes (LMMs, por sus siglas en inglés), que proporcionan respuestas que parecen correctas pero en realidad son incorrectas, limita su confiabilidad y aplicabilidad. Este artículo tiene como objetivo estudiar el problema de la alucinación de los LMMs en la modalidad de video, la cual es dinámica y más desafiante en comparación con modalidades estáticas como imágenes y texto. Motivados por esto, primero presentamos un benchmark integral denominado HAVEN para evaluar las alucinaciones de los LMMs en tareas de comprensión de video. Este se construye sobre tres dimensiones: causas de la alucinación, aspectos de la alucinación y formatos de preguntas, resultando en 6K preguntas. Luego, estudiamos cuantitativamente 7 factores influyentes en las alucinaciones, como la duración de los videos, el tamaño de los modelos y el razonamiento del modelo, mediante experimentos con 16 LMMs en el benchmark presentado. Además, inspirados por modelos de pensamiento recientes como OpenAI o1, proponemos un modelo de pensamiento de video para mitigar las alucinaciones de los LMMs mediante ajuste fino supervisado de razonamiento (SRFT, por sus siglas en inglés) y optimización directa de preferencias (TDPO, por sus siglas en inglés), donde SRFT mejora las capacidades de razonamiento mientras que TDPO reduce las alucinaciones en el proceso de pensamiento. Experimentos y análisis extensos demuestran su efectividad. Notablemente, mejora la línea base en un 7.65% en precisión en la evaluación de alucinaciones y reduce el puntaje de sesgo en un 4.5%. El código y los datos están disponibles públicamente en https://github.com/Hongcheng-Gao/HAVEN.
English
The hallucination of large multimodal models (LMMs), providing responses that appear correct but are actually incorrect, limits their reliability and applicability. This paper aims to study the hallucination problem of LMMs in video modality, which is dynamic and more challenging compared to static modalities like images and text. From this motivation, we first present a comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in video understanding tasks. It is built upon three dimensions, i.e., hallucination causes, hallucination aspects, and question formats, resulting in 6K questions. Then, we quantitatively study 7 influential factors on hallucinations, e.g., duration time of videos, model sizes, and model reasoning, via experiments of 16 LMMs on the presented benchmark. In addition, inspired by recent thinking models like OpenAI o1, we propose a video-thinking model to mitigate the hallucinations of LMMs via supervised reasoning fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT enhances reasoning capabilities while TDPO reduces hallucinations in the thinking process. Extensive experiments and analyses demonstrate the effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on hallucination evaluation and reduces the bias score by 4.5%. The code and data are public at https://github.com/Hongcheng-Gao/HAVEN.

Summary

AI-Generated Summary

PDF314March 26, 2025