ChatPaper.aiChatPaper

ProBench: 개방형 다중 도전 전문가 과제에서의 멀티모달 파운데이션 모델 평가

ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks

March 10, 2025
저자: Yan Yang, Dongxu Li, Haoning Wu, Bei Chen, Liu Liu, Liyuan Pan, Junnan Li
cs.AI

초록

전문가 수준의 다중 모달 작업 해결은 일반 지능으로 나아가는 핵심 이정표입니다. 다중 모달 대형 언어 모델(MLLMs)의 능력이 지속적으로 향상됨에 따라, 이러한 고급 다중 모달 지능의 평가는 필요하지만 동시에 도전적인 과제가 되었습니다. 본 연구에서는 전문 지식과 고급 추론을 요구하는 개방형 사용자 질문으로 구성된 ProBench 벤치마크를 소개합니다. ProBench는 전문가들이 일상적인 생산성 요구에 기반하여 독립적으로 제출한 4,000개의 고품질 샘플로 구성되어 있습니다. 이는 과학, 예술, 인문학, 코딩, 수학, 창의적 글쓰기 등 10개 분야와 56개 하위 분야에 걸쳐 있습니다. 실험적으로, 우리는 MLLM-as-a-Judge를 사용하여 최신 모델 24개를 평가하고 비교합니다. 우리의 결과는 최고의 오픈소스 모델이 독점 모델과 경쟁할 수 있음을 보여주지만, ProBench는 시각적 인지, 텍스트 이해, 도메인 지식 및 고급 추론에서 상당한 도전 과제를 제시하여, 향후 다중 모달 AI 연구 노력에 가치 있는 방향성을 제공합니다.
English
Solving expert-level multimodal tasks is a key milestone towards general intelligence. As the capabilities of multimodal large language models (MLLMs) continue to improve, evaluation of such advanced multimodal intelligence becomes necessary yet challenging. In this work, we introduce ProBench, a benchmark of open-ended user queries that require professional expertise and advanced reasoning. ProBench consists of 4,000 high-quality samples independently submitted by professionals based on their daily productivity demands. It spans across 10 fields and 56 sub-fields, including science, arts, humanities, coding, mathematics, and creative writing. Experimentally, we evaluate and compare 24 latest models using MLLM-as-a-Judge. Our results reveal that although the best open-source models rival the proprietary ones, ProBench presents significant challenges in visual perception, textual understanding, domain knowledge and advanced reasoning, thus providing valuable directions for future multimodal AI research efforts.

Summary

AI-Generated Summary

PDF33March 11, 2025