AV-Odyssey Bench: Могут ли ваши мультимодальные LLMs действительно понимать аудиовизуальную информацию?
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
December 3, 2024
Авторы: Kaixiong Gong, Kaituo Feng, Bohao Li, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue
cs.AI
Аннотация
Недавно мультимодальные крупные языковые модели (MLLM), такие как GPT-4o, Gemini 1.5 Pro и Reka Core, расширили свои возможности, включив в себя модальности зрения и звука. В то время как эти модели демонстрируют впечатляющую производительность в широком спектре аудиовизуальных приложений, наше предложенное испытание для глухих DeafTest показывает, что MLLM часто испытывают затруднения с простыми задачами, которые люди считают тривиальными: 1) определение, какой из двух звуков громче, и 2) определение, какой из двух звуков имеет более высокую высоту тона. Мотивируемые этими наблюдениями, мы представляем AV-Odyssey Bench, комплексный аудиовизуальный бенчмарк, разработанный для оценки способности этих MLLM действительно понимать аудиовизуальную информацию. Этот бенчмарк включает в себя 4 555 тщательно разработанных задач, каждая из которых включает текстовые, визуальные и аудио компоненты. Для успешного вывода ответов модели должны эффективно использовать подсказки как из визуальных, так и из аудио входов. Для обеспечения точной и объективной оценки ответов MLLM мы структурировали вопросы в форме множественного выбора, исключив необходимость в человеческой оценке или оценке с помощью LLM. Мы провели бенчмарк ряда закрытых и открытых моделей и суммируем наблюдения. Раскрывая ограничения текущих моделей, мы стремимся предоставить полезное понимание для будущего сбора наборов данных и развития моделей.
English
Recently, multimodal large language models (MLLMs), such as GPT-4o, Gemini
1.5 Pro, and Reka Core, have expanded their capabilities to include vision and
audio modalities. While these models demonstrate impressive performance across
a wide range of audio-visual applications, our proposed DeafTest reveals that
MLLMs often struggle with simple tasks humans find trivial: 1) determining
which of two sounds is louder, and 2) determining which of two sounds has a
higher pitch. Motivated by these observations, we introduce AV-Odyssey Bench, a
comprehensive audio-visual benchmark designed to assess whether those MLLMs can
truly understand the audio-visual information. This benchmark encompasses 4,555
carefully crafted problems, each incorporating text, visual, and audio
components. To successfully infer answers, models must effectively leverage
clues from both visual and audio inputs. To ensure precise and objective
evaluation of MLLM responses, we have structured the questions as
multiple-choice, eliminating the need for human evaluation or LLM-assisted
assessment. We benchmark a series of closed-source and open-source models and
summarize the observations. By revealing the limitations of current models, we
aim to provide useful insight for future dataset collection and model
development.Summary
AI-Generated Summary