Xpertbench: ルーブリックに基づく評価による専門家レベルのタスク
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
March 27, 2026
著者: Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu
cs.AI
要旨
大規模言語モデル(LLM)が従来のベンチマークで頭打ちの性能を示す中、核心的課題が残されている:真の専門家レベルの認知を特徴とする複雑でオープンエンドな課題における能力を如何に評価するかである。既存の評価枠組は、ドメイン coverage が狭い、汎用的な課題への依存、自己評価バイアスといった問題を抱えている。このギャップを埋めるため、我々は実際の専門職領域にわたってLLMを評価するために設計された高精度ベンチマーク、XpertBenchを提案する。XpertBenchは、金融、医療、法務、教育、そして二つの研究軌道(STEMと人文科学)にまたがる80カテゴリー、1,346の厳選された課題で構成される。これらの課題は、一流機関の研究者や豊富な臨床または産業経験を持つ実務家を含むドメイン専門家1,000名以上からの提出物に基づいて作成され、優れた生態学的妥当性を保証している。各課題は、主に15〜40の重み付けされたチェックポイントを含む詳細な評価基準を用いて専門的厳密性を評価する。スケーラブルかつ人間の判断に沿った評価を可能にするため、我々はShotJudgeを導入する。これは、専門家による少数ショットの模範例で較正されたLLM評価者を採用し、自己報酬バイアスを軽減する新しい評価パラダイムである。最先端のLLMに対する実証的評価により、顕著な性能の天井効果が明らかになった:最高性能のモデルでさえ、ピークの成功率は約66%に過ぎず、平均スコアは約55%であった。また、モデルはドメイン特異的な乖離を示し、定量的推論と言語的統合において重複しない強みを見せた。これらの発見は、現在のAIシステムに存在する重大な「専門家ギャップ」を浮き彫りにするとともに、XpertBenchが汎用アシスタントから専門的な業務協働者への移行を導く上で不可欠なツールであることを立証する。
English
As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.