Xpertbench: Экспертные задачи с рубрико-ориентированной оценкой

Аннотация

По мере того как крупные языковые модели (LLM) демонстрируют стагнацию производительности на стандартных тестах, сохраняется ключевая проблема: оценка их компетентности в сложных, открытых задачах, характеризующих подлинное экспертное мышление. Существующие методики страдают от узкого охвата областей, reliance на общие задачи или склонности к самооценке. Чтобы заполнить этот пробел, мы представляем XpertBench — высокоточный бенчмарк, разработанный для оценки LLM в реальных профессиональных доменах. XpertBench включает 1 346 тщательно отобранных задач по 80 категориям, охватывающим финансы, здравоохранение, юридические услуги, образование и двухуровневые исследования (STEM и гуманитарные науки). Эти задачи созданы на основе более 1 000 материалов, предоставленных экспертами в соответствующих областях — включая исследователей из ведущих институтов и практиков с обширным клиническим или промышленным опытом, — что обеспечивает высокую экологическую валидность. Каждая задача использует детальные рубрики с преимущественно 15-40 взвешенными контрольными точками для оценки профессиональной строгости. Для обеспечения масштабируемой, но согласованной с человеческими оценками проверки мы представляем ShotJudge — новую парадигму оценки, в которой LLM-судьи калибруются с помощью few-shot примеров от экспертов, чтобы минимизировать склонность к самопоощрению. Наше эмпирическое исследование передовых LLM выявляет выраженный потолок производительности: даже ведущие модели достигают пикового уровня успеха лишь около ~66%, со средним баллом около 55%. Модели также демонстрируют доменно-специфичную дивергенцию, показывая непересекающиеся сильные стороны в количественных рассуждениях versus лингвистическом синтезе. Эти результаты подчеркивают значительный «экспертный разрыв» в современных системах ИИ и устанавливают XpertBench в качестве ключевого инструмента для перехода от универсальных ассистентов к специализированным профессиональным коллабораторам.

English

As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.

Xpertbench: Экспертные задачи с рубрико-ориентированной оценкой

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Аннотация

Support