Xpertbench: Expertniveau Taken met Beoordeling op Basis van Rubrics

Samenvatting

Naarmate grote taalmodellen (LLM's) een plafond bereiken in hun prestaties op conventionele benchmarks, blijft een cruciale uitdaging bestaan: het evalueren van hun bekwaamheid in complexe, open-eindige taken die kenmerkend zijn voor authentieke expertcognitie. Bestaande kaders lijden onder een smalle domeindekking, afhankelijkheid van generalistische taken, of zelfevaluatievooroordelen. Om deze kloof te overbruggen, presenteren wij XpertBench, een hoogfiduciteit benchmark die ontworpen is om LLM's te beoordelen across authentieke professionele domeinen. XpertBench bestaat uit 1.346 zorgvuldig samengestelde taken verdeeld over 80 categorieën, waaronder financiën, gezondheidszorg, juridische diensten, onderwijs en dubbelsporig onderzoek (STEM en geesteswetenschappen). Deze taken zijn afgeleid van meer dan 1.000 inzendingen door domeinexperts—inclusief onderzoekers van elite-instellingen en praktijkmensen met uitgebreide klinische of industriële ervaring—wat een superieure ecologische validiteit garandeert. Elke taak gebruikt gedetailleerde beoordelingsrubrics met overwegend 15-40 gewogen checkpoints om professionele nauwkeurigheid te beoordelen. Om schaalbare en toch menselijk-uitgelijnde beoordeling te vergemakkelijken, introduceren we ShotJudge, een nieuwe evaluatieparadigma dat gebruikmaakt van LLM-beoordelaars die zijn gekalibreerd met expert few-shot voorbeelden om zelfbelonende vooroordelen te mitigeren. Onze empirische evaluatie van state-of-the-art LLM's onthult een duidelijke prestatiegrens: zelfs toonaangevende modellen bereiken een maximaal slagingspercentage van slechts ~66%, met een gemiddelde score rond de 55%. Modellen vertonen ook domeinspecifieke divergentie, waarbij niet-overlappende sterke punten zichtbaar worden in kwantitatief redeneren versus linguïstische synthese. Deze bevindingen onderstrepen een significante "expertkloof" in huidige AI-systemen en vestigen XpertBench als een cruciaal instrument voor de transitie van algemene assistenten naar gespecialiseerde professionele collaborators.

English

As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.

Xpertbench: Expertniveau Taken met Beoordeling op Basis van Rubrics

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Samenvatting

Support