ChatPaper.aiChatPaper

AV-Odyssey Bench: Kunnen Jouw Multimodale LLM's Echt Audiovisuele Informatie Begrijpen?

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

December 3, 2024
Auteurs: Kaixiong Gong, Kaituo Feng, Bohao Li, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue
cs.AI

Samenvatting

Recentelijk hebben multimodale grote taalmodellen (MLLM's), zoals GPT-4o, Gemini 1.5 Pro en Reka Core, hun mogelijkheden uitgebreid om ook visuele en auditieve modaliteiten te omvatten. Hoewel deze modellen indrukwekkende prestaties laten zien bij een breed scala aan audiovisuele toepassingen, onthult ons voorgestelde DeafTest dat MLLM's vaak moeite hebben met eenvoudige taken die mensen als triviaal beschouwen: 1) bepalen welk van twee geluiden harder is, en 2) bepalen welk van twee geluiden een hogere toonhoogte heeft. Gemotiveerd door deze observaties introduceren we AV-Odyssey Bench, een uitgebreide audiovisuele benchmark ontworpen om te beoordelen of die MLLM's daadwerkelijk de audiovisuele informatie kunnen begrijpen. Deze benchmark omvat 4.555 zorgvuldig samengestelde problemen, elk met tekstuele, visuele en auditieve componenten. Om antwoorden succesvol af te leiden, moeten modellen effectief aanwijzingen uit zowel visuele als auditieve invoer benutten. Om een nauwkeurige en objectieve evaluatie van MLLM-reacties te waarborgen, hebben we de vragen gestructureerd als meerkeuzevragen, waardoor de noodzaak voor menselijke evaluatie of LLM-ondersteunde beoordeling wordt geëlimineerd. We benchmarken een reeks gesloten en open-source modellen en vatten de observaties samen. Door de beperkingen van huidige modellen bloot te leggen, streven we ernaar nuttig inzicht te bieden voor toekomstige datasetverzameling en modelontwikkeling.
English
Recently, multimodal large language models (MLLMs), such as GPT-4o, Gemini 1.5 Pro, and Reka Core, have expanded their capabilities to include vision and audio modalities. While these models demonstrate impressive performance across a wide range of audio-visual applications, our proposed DeafTest reveals that MLLMs often struggle with simple tasks humans find trivial: 1) determining which of two sounds is louder, and 2) determining which of two sounds has a higher pitch. Motivated by these observations, we introduce AV-Odyssey Bench, a comprehensive audio-visual benchmark designed to assess whether those MLLMs can truly understand the audio-visual information. This benchmark encompasses 4,555 carefully crafted problems, each incorporating text, visual, and audio components. To successfully infer answers, models must effectively leverage clues from both visual and audio inputs. To ensure precise and objective evaluation of MLLM responses, we have structured the questions as multiple-choice, eliminating the need for human evaluation or LLM-assisted assessment. We benchmark a series of closed-source and open-source models and summarize the observations. By revealing the limitations of current models, we aim to provide useful insight for future dataset collection and model development.
PDF242December 4, 2024