ProfBench: 専門知識を必要とする多領域評価基準の回答と判定
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
October 21, 2025
著者: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
要旨
大規模言語モデル(LLM)の進捗を評価する際、応答の検証が困難であることが制約となり、数学、プログラミング、短い形式の質問応答などのタスクに評価が限定されることが多い。しかし、現実世界の多くのアプリケーションでは、専門文書の処理、情報の統合、ユーザーのクエリに対する包括的なレポートの生成といった場面でLLMを評価する必要がある。本研究では、物理学博士、化学博士、金融MBA、コンサルティングMBAといった専門知識を持つ人間の専門家によって評価された7,000以上の応答-基準ペアからなるProfBenchを紹介する。自己強化バイアスを軽減し、評価コストを2~3桁削減することで、公平かつ広範なコミュニティにアクセス可能な、堅牢で手頃なLLM-Judgesを構築した。その結果、ProfBenchは最先端のLLMにとっても重大な課題を提示し、GPT-5-highのようなトップパフォーマンスのモデルでも全体のパフォーマンスは65.9%に留まることが明らかになった。さらに、プロプライエタリモデルとオープンウェイトモデルの間には顕著なパフォーマンスの差が存在し、複雑な専門領域タスクに対処する際に拡張思考が果たす役割についての洞察を提供する。データ: https://huggingface.co/datasets/nvidia/ProfBench およびコード: https://github.com/NVlabs/ProfBench
English
Evaluating progress in large language models (LLMs) is often constrained by
the challenge of verifying responses, limiting assessments to tasks like
mathematics, programming, and short-form question-answering. However, many
real-world applications require evaluating LLMs in processing professional
documents, synthesizing information, and generating comprehensive reports in
response to user queries. We introduce ProfBench: a set of over 7000
response-criterion pairs as evaluated by human-experts with professional
knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We
build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by
mitigating self-enhancement bias and reducing the cost of evaluation by 2-3
orders of magnitude, to make it fair and accessible to the broader community.
Our findings reveal that ProfBench poses significant challenges even for
state-of-the-art LLMs, with top-performing models like GPT-5-high achieving
only 65.9\% overall performance. Furthermore, we identify notable performance
disparities between proprietary and open-weight models and provide insights
into the role that extended thinking plays in addressing complex,
professional-domain tasks. Data:
https://huggingface.co/datasets/nvidia/ProfBench and Code:
https://github.com/NVlabs/ProfBench