ChatPaper.aiChatPaper

AV-Odyssey Bench: Können Ihre Multimodalen LLMs wirklich Audiovisuelle Informationen verstehen?

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

December 3, 2024
Autoren: Kaixiong Gong, Kaituo Feng, Bohao Li, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue
cs.AI

Zusammenfassung

In letzter Zeit haben multimodale große Sprachmodelle (MLLMs) wie GPT-4o, Gemini 1.5 Pro und Reka Core ihre Fähigkeiten erweitert, um auch Bild- und Audio-Modalitäten einzubeziehen. Obwohl diese Modelle beeindruckende Leistungen in einer Vielzahl von audiovisuellen Anwendungen zeigen, zeigt unser vorgeschlagener DeafTest, dass MLLMs oft mit einfachen Aufgaben kämpfen, die Menschen als trivial empfinden: 1) festzustellen, welcher von zwei Geräuschen lauter ist, und 2) festzustellen, welches von zwei Geräuschen eine höhere Tonhöhe hat. Motiviert durch diese Beobachtungen stellen wir AV-Odyssey Bench vor, einen umfassenden audiovisuellen Benchmark, der darauf abzielt zu bewerten, ob diese MLLMs tatsächlich die audiovisuellen Informationen verstehen können. Dieser Benchmark umfasst 4.555 sorgfältig ausgearbeitete Probleme, die jeweils Text-, visuelle und Audio-Komponenten integrieren. Um Antworten erfolgreich ableiten zu können, müssen die Modelle Hinweise sowohl aus visuellen als auch aus Audio-Eingaben effektiv nutzen. Um eine präzise und objektive Bewertung der MLLM-Antworten sicherzustellen, haben wir die Fragen als Multiple-Choice strukturiert, was die Notwendigkeit einer menschlichen Bewertung oder LLM-unterstützten Bewertung eliminiert. Wir bewerten eine Reihe von Closed-Source- und Open-Source-Modellen und fassen die Beobachtungen zusammen. Indem wir die Grenzen der aktuellen Modelle aufzeigen, möchten wir nützliche Einblicke für zukünftige Datensammlung und Modellentwicklung bieten.
English
Recently, multimodal large language models (MLLMs), such as GPT-4o, Gemini 1.5 Pro, and Reka Core, have expanded their capabilities to include vision and audio modalities. While these models demonstrate impressive performance across a wide range of audio-visual applications, our proposed DeafTest reveals that MLLMs often struggle with simple tasks humans find trivial: 1) determining which of two sounds is louder, and 2) determining which of two sounds has a higher pitch. Motivated by these observations, we introduce AV-Odyssey Bench, a comprehensive audio-visual benchmark designed to assess whether those MLLMs can truly understand the audio-visual information. This benchmark encompasses 4,555 carefully crafted problems, each incorporating text, visual, and audio components. To successfully infer answers, models must effectively leverage clues from both visual and audio inputs. To ensure precise and objective evaluation of MLLM responses, we have structured the questions as multiple-choice, eliminating the need for human evaluation or LLM-assisted assessment. We benchmark a series of closed-source and open-source models and summarize the observations. By revealing the limitations of current models, we aim to provide useful insight for future dataset collection and model development.

Summary

AI-Generated Summary

PDF242December 4, 2024