ChatPaper.aiChatPaper

Xpertbench: Экспертные задачи с рубрико-ориентированной оценкой

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

March 27, 2026
Авторы: Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu
cs.AI

Аннотация

По мере того как крупные языковые модели (LLM) демонстрируют стагнацию производительности на стандартных тестах, сохраняется ключевая проблема: оценка их компетентности в сложных, открытых задачах, характеризующих подлинное экспертное мышление. Существующие методики страдают от узкого охвата областей, reliance на общие задачи или склонности к самооценке. Чтобы заполнить этот пробел, мы представляем XpertBench — высокоточный бенчмарк, разработанный для оценки LLM в реальных профессиональных доменах. XpertBench включает 1 346 тщательно отобранных задач по 80 категориям, охватывающим финансы, здравоохранение, юридические услуги, образование и двухуровневые исследования (STEM и гуманитарные науки). Эти задачи созданы на основе более 1 000 материалов, предоставленных экспертами в соответствующих областях — включая исследователей из ведущих институтов и практиков с обширным клиническим или промышленным опытом, — что обеспечивает высокую экологическую валидность. Каждая задача использует детальные рубрики с преимущественно 15-40 взвешенными контрольными точками для оценки профессиональной строгости. Для обеспечения масштабируемой, но согласованной с человеческими оценками проверки мы представляем ShotJudge — новую парадигму оценки, в которой LLM-судьи калибруются с помощью few-shot примеров от экспертов, чтобы минимизировать склонность к самопоощрению. Наше эмпирическое исследование передовых LLM выявляет выраженный потолок производительности: даже ведущие модели достигают пикового уровня успеха лишь около ~66%, со средним баллом около 55%. Модели также демонстрируют доменно-специфичную дивергенцию, показывая непересекающиеся сильные стороны в количественных рассуждениях versus лингвистическом синтезе. Эти результаты подчеркивают значительный «экспертный разрыв» в современных системах ИИ и устанавливают XpertBench в качестве ключевого инструмента для перехода от универсальных ассистентов к специализированным профессиональным коллабораторам.
English
As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.
PDF20April 7, 2026