ProBench: Het beoordelen van multimodale foundationmodellen op open-einde multidisciplinaire expert taken

Samenvatting

Het oplossen van expert-level multimodale taken is een belangrijke mijlpaal op weg naar algemene intelligentie. Naarmate de mogelijkheden van multimodale grote taalmodellen (MLLMs) blijven verbeteren, wordt de evaluatie van dergelijke geavanceerde multimodale intelligentie noodzakelijk maar ook uitdagend. In dit werk introduceren we ProBench, een benchmark van open-einde gebruikersvragen die professionele expertise en geavanceerd redeneren vereisen. ProBench bestaat uit 4.000 hoogwaardige voorbeelden die onafhankelijk zijn ingediend door professionals op basis van hun dagelijkse productiviteitsbehoeften. Het omvat 10 vakgebieden en 56 subgebieden, waaronder wetenschap, kunst, geesteswetenschappen, programmeren, wiskunde en creatief schrijven. Experimenteel evalueren en vergelijken we 24 nieuwste modellen met behulp van MLLM-as-a-Judge. Onze resultaten laten zien dat hoewel de beste open-source modellen de propriëtaire modellen evenaren, ProBench aanzienlijke uitdagingen biedt op het gebied van visuele perceptie, tekstueel begrip, domeinkennis en geavanceerd redeneren, en daarmee waardevolle richtingen biedt voor toekomstige multimodale AI-onderzoeksinspanningen.

English

Solving expert-level multimodal tasks is a key milestone towards general intelligence. As the capabilities of multimodal large language models (MLLMs) continue to improve, evaluation of such advanced multimodal intelligence becomes necessary yet challenging. In this work, we introduce ProBench, a benchmark of open-ended user queries that require professional expertise and advanced reasoning. ProBench consists of 4,000 high-quality samples independently submitted by professionals based on their daily productivity demands. It spans across 10 fields and 56 sub-fields, including science, arts, humanities, coding, mathematics, and creative writing. Experimentally, we evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal that although the best open-source models rival the proprietary ones, ProBench presents significant challenges in visual perception, textual understanding, domain knowledge and advanced reasoning, thus providing valuable directions for future multimodal AI research efforts.

ProBench: Het beoordelen van multimodale foundationmodellen op open-einde multidisciplinaire expert taken

ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

Samenvatting

Support