ProBench: Het beoordelen van multimodale foundationmodellen op open-einde multidisciplinaire expert taken
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
March 10, 2025
Auteurs: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI
Samenvatting
Het oplossen van expert-level multimodale taken is een belangrijke mijlpaal op weg naar algemene intelligentie. Naarmate de mogelijkheden van multimodale grote taalmodellen (MLLMs) blijven verbeteren, wordt de evaluatie van dergelijke geavanceerde multimodale intelligentie noodzakelijk maar ook uitdagend. In dit werk introduceren we ProBench, een benchmark van open-einde gebruikersvragen die professionele expertise en geavanceerd redeneren vereisen. ProBench bestaat uit 4.000 hoogwaardige voorbeelden die onafhankelijk zijn ingediend door professionals op basis van hun dagelijkse productiviteitsbehoeften. Het omvat 10 vakgebieden en 56 subgebieden, waaronder wetenschap, kunst, geesteswetenschappen, programmeren, wiskunde en creatief schrijven. Experimenteel evalueren en vergelijken we 24 nieuwste modellen met behulp van MLLM-as-a-Judge. Onze resultaten laten zien dat hoewel de beste open-source modellen de propriëtaire modellen evenaren, ProBench aanzienlijke uitdagingen biedt op het gebied van visuele perceptie, tekstueel begrip, domeinkennis en geavanceerd redeneren, en daarmee waardevolle richtingen biedt voor toekomstige multimodale AI-onderzoeksinspanningen.
English
Solving expert-level multimodal tasks is a key milestone towards general
intelligence. As the capabilities of multimodal large language models (MLLMs)
continue to improve, evaluation of such advanced multimodal intelligence
becomes necessary yet challenging. In this work, we introduce ProBench, a
benchmark of open-ended user queries that require professional expertise and
advanced reasoning. ProBench consists of 4,000 high-quality samples
independently submitted by professionals based on their daily productivity
demands. It spans across 10 fields and 56 sub-fields, including science, arts,
humanities, coding, mathematics, and creative writing. Experimentally, we
evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal
that although the best open-source models rival the proprietary ones, ProBench
presents significant challenges in visual perception, textual understanding,
domain knowledge and advanced reasoning, thus providing valuable directions for
future multimodal AI research efforts.Summary
AI-Generated Summary