ChatPaper.aiChatPaper

AV-Odyssey Bench: ¿Pueden tus LLMs Multimodales Realmente Entender la Información Audiovisual?

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

December 3, 2024
Autores: Kaixiong Gong, Kaituo Feng, Bohao Li, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue
cs.AI

Resumen

Recientemente, los modelos de lenguaje grandes multimodales (MLLMs), como GPT-4o, Gemini 1.5 Pro y Reka Core, han ampliado sus capacidades para incluir modalidades de visión y audio. Si bien estos modelos demuestran un rendimiento impresionante en una amplia gama de aplicaciones audiovisuales, nuestro DeafTest propuesto revela que los MLLMs a menudo tienen dificultades con tareas simples que los humanos consideran triviales: 1) determinar cuál de dos sonidos es más fuerte y 2) determinar cuál de dos sonidos tiene un tono más alto. Motivados por estas observaciones, presentamos AV-Odyssey Bench, un banco de pruebas audiovisuales completo diseñado para evaluar si esos MLLMs pueden comprender verdaderamente la información audiovisual. Este banco de pruebas abarca 4,555 problemas cuidadosamente elaborados, cada uno incorporando componentes de texto, visual y audio. Para inferir respuestas con éxito, los modelos deben aprovechar de manera efectiva pistas tanto de las entradas visuales como de las entradas de audio. Para asegurar una evaluación precisa y objetiva de las respuestas de los MLLMs, hemos estructurado las preguntas como de opción múltiple, eliminando la necesidad de evaluación humana o evaluación asistida por LLM. Evaluamos una serie de modelos de código cerrado y de código abierto y resumimos las observaciones. Al revelar las limitaciones de los modelos actuales, nuestro objetivo es proporcionar información útil para la futura recopilación de conjuntos de datos y el desarrollo de modelos.
English
Recently, multimodal large language models (MLLMs), such as GPT-4o, Gemini 1.5 Pro, and Reka Core, have expanded their capabilities to include vision and audio modalities. While these models demonstrate impressive performance across a wide range of audio-visual applications, our proposed DeafTest reveals that MLLMs often struggle with simple tasks humans find trivial: 1) determining which of two sounds is louder, and 2) determining which of two sounds has a higher pitch. Motivated by these observations, we introduce AV-Odyssey Bench, a comprehensive audio-visual benchmark designed to assess whether those MLLMs can truly understand the audio-visual information. This benchmark encompasses 4,555 carefully crafted problems, each incorporating text, visual, and audio components. To successfully infer answers, models must effectively leverage clues from both visual and audio inputs. To ensure precise and objective evaluation of MLLM responses, we have structured the questions as multiple-choice, eliminating the need for human evaluation or LLM-assisted assessment. We benchmark a series of closed-source and open-source models and summarize the observations. By revealing the limitations of current models, we aim to provide useful insight for future dataset collection and model development.

Summary

AI-Generated Summary

PDF242December 4, 2024