Xpertbench: Expertenlevel-Aufgaben mit rubrikbasierter Bewertung
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
March 27, 2026
Autoren: Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu
cs.AI
Zusammenfassung
Da große Sprachmodelle (LLMs) bei konventionellen Benchmarks stagnierende Leistungswerte aufweisen, bleibt eine zentrale Herausforderung bestehen: die Bewertung ihrer Kompetenz bei komplexen, offenen Aufgaben, die echte Expertenkognition charakterisieren. Bestehende Bewertungsrahmen leiden unter eingeschränkter Domänenabdeckung, der Abhängigkeit von generalistischen Aufgaben oder Selbstbewertungsverzerrungen. Um diese Lücke zu schließen, präsentieren wir XpertBench, einen hochpräzisen Benchmark, der entwickelt wurde, um LLMs über authentische professionelle Domänen hinweg zu bewerten. XpertBench besteht aus 1.346 sorgfältig kuratierten Aufgaben in 80 Kategorien, die die Bereiche Finanzen, Gesundheitswesen, Rechtsdienstleistungen, Bildung und zweigleisige Forschung (MINT und Geisteswissenschaften) abdecken. Diese Aufgaben basieren auf über 1.000 Einreichungen von Domain-Experten – darunter Forscher von Eliteinstitutionen und Praktiker mit umfangreicher klinischer oder industrieller Erfahrung –, was eine hohe ökologische Validität gewährleistet. Jede Aufgabe verwendet detaillierte Bewertungsraster mit meist 15-40 gewichteten Checkpoints, um die professionelle Rigorosität zu bewerten. Um eine skalierbare und dennoch menschlich ausgerichtete Bewertung zu ermöglichen, führen wir ShotJudge ein, ein neuartiges Bewertungsparadigma, das LLM-Bewerter einsetzt, die mit Experten-Beispielen im Few-Shot-Learning kalibriert werden, um selbstbegünstigende Verzerrungen zu mindern. Unsere empirische Auswertung modernster LLMs zeigt eine deutliche Leistungsobergrenze: Selbst führende Modelle erreichen eine maximale Erfolgsrate von nur ~66 %, mit einem Durchschnittswert von etwa 55 %. Die Modelle zeigen zudem domänenspezifische Unterschiede mit nicht überlappenden Stärken im quantitativen Denken gegenüber linguistischer Synthese. Diese Ergebnisse unterstreichen eine signifikante "Expertise-Lücke" in aktuellen KI-Systemen und etablieren XpertBench als entscheidendes Instrument für den Übergang von universellen Assistenten zu spezialisierten professionellen Kollaborateuren.
English
As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.