ChatPaper.aiChatPaper

Xpertbench: 전문가 수준 과제 및 루브릭 기반 평가

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

March 27, 2026
저자: Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu
cs.AI

초록

대규모 언어 모델(LLM)이 기존 벤치마크에서 정체된 성능을 보임에 따라, 진정한 전문가 수준 인지를 특징으로 하는 복잡하고 개방형 과제에서의 숙련도를 평가하는 것이 지속적인 핵심 과제로 대두되고 있습니다. 기존 평가 체계는 협소한 영역 범위, 일반적 과제에의 의존, 또는 자기 평가 편향 등의 한계를 지닙니다. 이러한 격차를 해소하기 위해 우리는 실제 전문 분야 전반에 걸쳐 LLM을 평가하도록 설계된 고충실도 벤치마크인 XpertBench를 제안합니다. XpertBench는 금융, 헬스케어, 법률 서비스, 교육, 이중 트랙 연구(STEM 및 인문학)에 걸친 80개 범주, 총 1,346개의 정교하게 구성된 과제로 이루어져 있습니다. 이러한 과제들은 최고 수준 기관의 연구자 및 풍부한 임상 또는 산업 경험을 가진 실무자를 포함한 도메인 전문가들의 1,000건 이상의 제출 자료를 바탕으로 도출되어 탁월한 생태학적 타당성을 보장합니다. 각 과제는 대부분 15-40개의 가중 체크포인트를 포함한 상세 평가 기준을 사용하여 전문적 엄격성을 평가합니다. 확장 가능하면서도 인간과 조율된 평가를 용이하게 하기 위해, 우리는 전문가의 퓨샷 예시로 보정된 LLM 평가자를 활용하여 자기 보상 편향을 완화하는 새로운 평가 패러다임인 ShotJudge를 도입합니다. 최첨단 LLM에 대한 우리의 실증적 평가는 두드러진 성능 한계를 보여줍니다: 선도적인 모델조차 최고 성공률이 약 66%에 불과하며, 평균 점수는 약 55% 수준입니다. 모델들은 또한 영역별 차이를 보이며, 정량적 추론과 언어적 종합 능력에서 중복되지 않는 강점을 나타냅니다. 이러한 결과는 현재 AI 시스템에 존재하는 상당한 "전문가 격차"를 강조하며, XpertBench가 범용 어시스턴트에서 전문적인 협업 도구로의 전환을导航하는 중요한 도구로서의 역할을 정립합니다.
English
As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.
PDF20April 7, 2026