ChatPaper.aiChatPaper

ProBench: Evaluación de Modelos Fundacionales Multimodales en Tareas Expertas Multidominio de Respuesta Abierta

ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

March 10, 2025
Autores: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI

Resumen

Resolver tareas multimodales de nivel experto es un hito clave hacia la inteligencia general. A medida que las capacidades de los modelos de lenguaje multimodal de gran escala (MLLMs) continúan mejorando, la evaluación de dicha inteligencia multimodal avanzada se vuelve necesaria, aunque desafiante. En este trabajo, presentamos ProBench, un benchmark de consultas abiertas de usuarios que requieren experiencia profesional y razonamiento avanzado. ProBench consta de 4,000 muestras de alta calidad, enviadas de manera independiente por profesionales basándose en sus demandas diarias de productividad. Abarca 10 campos y 56 subcampos, incluyendo ciencia, artes, humanidades, programación, matemáticas y escritura creativa. Experimentalmente, evaluamos y comparamos 24 de los modelos más recientes utilizando MLLM-as-a-Judge. Nuestros resultados revelan que, aunque los mejores modelos de código abierto rivalizan con los propietarios, ProBench presenta desafíos significativos en percepción visual, comprensión textual, conocimiento de dominio y razonamiento avanzado, ofreciendo así direcciones valiosas para futuros esfuerzos de investigación en IA multimodal.
English
Solving expert-level multimodal tasks is a key milestone towards general intelligence. As the capabilities of multimodal large language models (MLLMs) continue to improve, evaluation of such advanced multimodal intelligence becomes necessary yet challenging. In this work, we introduce ProBench, a benchmark of open-ended user queries that require professional expertise and advanced reasoning. ProBench consists of 4,000 high-quality samples independently submitted by professionals based on their daily productivity demands. It spans across 10 fields and 56 sub-fields, including science, arts, humanities, coding, mathematics, and creative writing. Experimentally, we evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal that although the best open-source models rival the proprietary ones, ProBench presents significant challenges in visual perception, textual understanding, domain knowledge and advanced reasoning, thus providing valuable directions for future multimodal AI research efforts.

Summary

AI-Generated Summary

PDF33March 11, 2025