Banc AV-Odyssey : Vos LMM multimodaux peuvent-ils réellement comprendre les informations audiovisuelles ?
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
December 3, 2024
Auteurs: Kaixiong Gong, Kaituo Feng, Bohao Li, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue
cs.AI
Résumé
Récemment, les grands modèles de langage multimodaux (GMLM), tels que GPT-4o, Gemini 1.5 Pro et Reka Core, ont étendu leurs capacités pour inclure les modalités visuelles et audio. Alors que ces modèles démontrent des performances impressionnantes dans un large éventail d'applications audiovisuelles, notre DeafTest proposé révèle que les GMLM ont souvent du mal avec des tâches simples que les humains trouvent triviales : 1) déterminer quel son parmi deux est plus fort, et 2) déterminer quel son parmi deux a une hauteur plus élevée. Motivés par ces observations, nous introduisons AV-Odyssey Bench, un banc d'essai audiovisuel complet conçu pour évaluer si ces GMLM peuvent réellement comprendre les informations audiovisuelles. Ce banc d'essai englobe 4 555 problèmes soigneusement élaborés, chacun intégrant des composantes textuelles, visuelles et audio. Pour inférer avec succès des réponses, les modèles doivent exploiter efficacement les indices des entrées visuelles et audio. Afin d'assurer une évaluation précise et objective des réponses des GMLM, nous avons structuré les questions sous forme de choix multiples, éliminant ainsi le besoin d'évaluation humaine ou d'évaluation assistée par GMLM. Nous évaluons une série de modèles à code source fermé et ouvert, et résumons les observations. En révélant les limitations des modèles actuels, nous visons à fournir des perspectives utiles pour la collecte de données futures et le développement de modèles.
English
Recently, multimodal large language models (MLLMs), such as GPT-4o, Gemini
1.5 Pro, and Reka Core, have expanded their capabilities to include vision and
audio modalities. While these models demonstrate impressive performance across
a wide range of audio-visual applications, our proposed DeafTest reveals that
MLLMs often struggle with simple tasks humans find trivial: 1) determining
which of two sounds is louder, and 2) determining which of two sounds has a
higher pitch. Motivated by these observations, we introduce AV-Odyssey Bench, a
comprehensive audio-visual benchmark designed to assess whether those MLLMs can
truly understand the audio-visual information. This benchmark encompasses 4,555
carefully crafted problems, each incorporating text, visual, and audio
components. To successfully infer answers, models must effectively leverage
clues from both visual and audio inputs. To ensure precise and objective
evaluation of MLLM responses, we have structured the questions as
multiple-choice, eliminating the need for human evaluation or LLM-assisted
assessment. We benchmark a series of closed-source and open-source models and
summarize the observations. By revealing the limitations of current models, we
aim to provide useful insight for future dataset collection and model
development.Summary
AI-Generated Summary