ChatPaper.aiChatPaper

ProBench: Het beoordelen van multimodale foundationmodellen op open-einde multidisciplinaire expert taken

ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

March 10, 2025
Auteurs: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI

Samenvatting

Het oplossen van expert-level multimodale taken is een belangrijke mijlpaal op weg naar algemene intelligentie. Naarmate de mogelijkheden van multimodale grote taalmodellen (MLLMs) blijven verbeteren, wordt de evaluatie van dergelijke geavanceerde multimodale intelligentie noodzakelijk maar ook uitdagend. In dit werk introduceren we ProBench, een benchmark van open-einde gebruikersvragen die professionele expertise en geavanceerd redeneren vereisen. ProBench bestaat uit 4.000 hoogwaardige voorbeelden die onafhankelijk zijn ingediend door professionals op basis van hun dagelijkse productiviteitsbehoeften. Het omvat 10 vakgebieden en 56 subgebieden, waaronder wetenschap, kunst, geesteswetenschappen, programmeren, wiskunde en creatief schrijven. Experimenteel evalueren en vergelijken we 24 nieuwste modellen met behulp van MLLM-as-a-Judge. Onze resultaten laten zien dat hoewel de beste open-source modellen de propriëtaire modellen evenaren, ProBench aanzienlijke uitdagingen biedt op het gebied van visuele perceptie, tekstueel begrip, domeinkennis en geavanceerd redeneren, en daarmee waardevolle richtingen biedt voor toekomstige multimodale AI-onderzoeksinspanningen.
English
Solving expert-level multimodal tasks is a key milestone towards general intelligence. As the capabilities of multimodal large language models (MLLMs) continue to improve, evaluation of such advanced multimodal intelligence becomes necessary yet challenging. In this work, we introduce ProBench, a benchmark of open-ended user queries that require professional expertise and advanced reasoning. ProBench consists of 4,000 high-quality samples independently submitted by professionals based on their daily productivity demands. It spans across 10 fields and 56 sub-fields, including science, arts, humanities, coding, mathematics, and creative writing. Experimentally, we evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal that although the best open-source models rival the proprietary ones, ProBench presents significant challenges in visual perception, textual understanding, domain knowledge and advanced reasoning, thus providing valuable directions for future multimodal AI research efforts.

Summary

AI-Generated Summary

PDF33March 11, 2025