ChatPaper.aiChatPaper

ProBench : Évaluation des modèles de fondation multimodaux sur des tâches expertes ouvertes et multidomaines

ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

March 10, 2025
Auteurs: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI

Résumé

La résolution de tâches multimodales de niveau expert constitue une étape clé vers l'intelligence générale. Alors que les capacités des modèles de langage multimodaux de grande envergure (MLLMs) continuent de s'améliorer, l'évaluation d'une telle intelligence multimodale avancée devient nécessaire mais complexe. Dans ce travail, nous présentons ProBench, un benchmark de requêtes utilisateur ouvertes nécessitant une expertise professionnelle et un raisonnement avancé. ProBench se compose de 4 000 échantillons de haute qualité soumis indépendamment par des professionnels en fonction de leurs besoins quotidiens en productivité. Il couvre 10 domaines et 56 sous-domaines, incluant les sciences, les arts, les humanités, le codage, les mathématiques et l'écriture créative. Expérimentalement, nous évaluons et comparons 24 modèles récents en utilisant MLLM-as-a-Judge. Nos résultats montrent que, bien que les meilleurs modèles open source rivalisent avec les modèles propriétaires, ProBench pose des défis significatifs en matière de perception visuelle, de compréhension textuelle, de connaissances domaines et de raisonnement avancé, offrant ainsi des orientations précieuses pour les futures recherches en IA multimodale.
English
Solving expert-level multimodal tasks is a key milestone towards general intelligence. As the capabilities of multimodal large language models (MLLMs) continue to improve, evaluation of such advanced multimodal intelligence becomes necessary yet challenging. In this work, we introduce ProBench, a benchmark of open-ended user queries that require professional expertise and advanced reasoning. ProBench consists of 4,000 high-quality samples independently submitted by professionals based on their daily productivity demands. It spans across 10 fields and 56 sub-fields, including science, arts, humanities, coding, mathematics, and creative writing. Experimentally, we evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal that although the best open-source models rival the proprietary ones, ProBench presents significant challenges in visual perception, textual understanding, domain knowledge and advanced reasoning, thus providing valuable directions for future multimodal AI research efforts.

Summary

AI-Generated Summary

PDF33March 11, 2025