ProBench : Évaluation des modèles de fondation multimodaux sur des tâches expertes ouvertes et multidomaines
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
March 10, 2025
Auteurs: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI
Résumé
La résolution de tâches multimodales de niveau expert constitue une étape clé vers l'intelligence générale. Alors que les capacités des modèles de langage multimodaux de grande envergure (MLLMs) continuent de s'améliorer, l'évaluation d'une telle intelligence multimodale avancée devient nécessaire mais complexe. Dans ce travail, nous présentons ProBench, un benchmark de requêtes utilisateur ouvertes nécessitant une expertise professionnelle et un raisonnement avancé. ProBench se compose de 4 000 échantillons de haute qualité soumis indépendamment par des professionnels en fonction de leurs besoins quotidiens en productivité. Il couvre 10 domaines et 56 sous-domaines, incluant les sciences, les arts, les humanités, le codage, les mathématiques et l'écriture créative. Expérimentalement, nous évaluons et comparons 24 modèles récents en utilisant MLLM-as-a-Judge. Nos résultats montrent que, bien que les meilleurs modèles open source rivalisent avec les modèles propriétaires, ProBench pose des défis significatifs en matière de perception visuelle, de compréhension textuelle, de connaissances domaines et de raisonnement avancé, offrant ainsi des orientations précieuses pour les futures recherches en IA multimodale.
English
Solving expert-level multimodal tasks is a key milestone towards general
intelligence. As the capabilities of multimodal large language models (MLLMs)
continue to improve, evaluation of such advanced multimodal intelligence
becomes necessary yet challenging. In this work, we introduce ProBench, a
benchmark of open-ended user queries that require professional expertise and
advanced reasoning. ProBench consists of 4,000 high-quality samples
independently submitted by professionals based on their daily productivity
demands. It spans across 10 fields and 56 sub-fields, including science, arts,
humanities, coding, mathematics, and creative writing. Experimentally, we
evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal
that although the best open-source models rival the proprietary ones, ProBench
presents significant challenges in visual perception, textual understanding,
domain knowledge and advanced reasoning, thus providing valuable directions for
future multimodal AI research efforts.Summary
AI-Generated Summary