ProBench: Evaluación de Modelos Fundacionales Multimodales en Tareas Expertas Multidominio de Respuesta Abierta
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks
March 10, 2025
Autores: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI
Resumen
Resolver tareas multimodales de nivel experto es un hito clave hacia la inteligencia general. A medida que las capacidades de los modelos de lenguaje multimodal de gran escala (MLLMs) continúan mejorando, la evaluación de dicha inteligencia multimodal avanzada se vuelve necesaria, aunque desafiante. En este trabajo, presentamos ProBench, un benchmark de consultas abiertas de usuarios que requieren experiencia profesional y razonamiento avanzado. ProBench consta de 4,000 muestras de alta calidad, enviadas de manera independiente por profesionales basándose en sus demandas diarias de productividad. Abarca 10 campos y 56 subcampos, incluyendo ciencia, artes, humanidades, programación, matemáticas y escritura creativa. Experimentalmente, evaluamos y comparamos 24 de los modelos más recientes utilizando MLLM-as-a-Judge. Nuestros resultados revelan que, aunque los mejores modelos de código abierto rivalizan con los propietarios, ProBench presenta desafíos significativos en percepción visual, comprensión textual, conocimiento de dominio y razonamiento avanzado, ofreciendo así direcciones valiosas para futuros esfuerzos de investigación en IA multimodal.
English
Solving expert-level multimodal tasks is a key milestone towards general
intelligence. As the capabilities of multimodal large language models (MLLMs)
continue to improve, evaluation of such advanced multimodal intelligence
becomes necessary yet challenging. In this work, we introduce ProBench, a
benchmark of open-ended user queries that require professional expertise and
advanced reasoning. ProBench consists of 4,000 high-quality samples
independently submitted by professionals based on their daily productivity
demands. It spans across 10 fields and 56 sub-fields, including science, arts,
humanities, coding, mathematics, and creative writing. Experimentally, we
evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal
that although the best open-source models rival the proprietary ones, ProBench
presents significant challenges in visual perception, textual understanding,
domain knowledge and advanced reasoning, thus providing valuable directions for
future multimodal AI research efforts.Summary
AI-Generated Summary