Xpertbench: Compiti di Livello Esperto con Valutazione Basata su Rubriche

Abstract

Mentre i modelli linguistici di grandi dimensioni (LLM) mostrano prestazioni stagnanti sui benchmark convenzionali, rimane una sfida cruciale: valutare la loro competenza in compiti complessi e aperti che caratterizzano una cognizione autentica di livello esperto. I framework esistenti soffrono di una copertura di dominio limitata, dipendenza da compiti generalisti o bias di autovalutazione. Per colmare questa lacuna, presentiamo XpertBench, un benchmark ad alta fedeltà progettato per valutare gli LLM in domini professionali autentici. XpertBench consiste in 1.346 compiti meticolosamente curati in 80 categorie, che abbracciano finanza, sanità, servizi legali, istruzione e ricerca a doppio binario (STEM e discipline umanistiche). Questi compiti sono derivati da oltre 1.000 contributi di esperti di dominio—inclusi ricercatori di istituzioni d'eccellenza e professionisti con ampia esperienza clinica o industriale—garantendo una superiore validità ecologica. Ogni compito utilizza rubriche dettagliate con per lo più 15-40 checkpoint ponderati per valutare il rigore professionale. Per facilitare una valutazione scalabile ma allineata all'umano, introduciamo ShotJudge, un nuovo paradigma di valutazione che impiega giudici LLM calibrati con esempi few-shot di esperti per mitigare i bias di autopremialità. La nostra valutazione empirica degli LLM più all'avanguardia rivela un marcato limite prestazionale: anche i modelli leader raggiungono un tasso di successo massimo di solo ~66%, con un punteggio medio attorno al 55%. I modelli mostrano anche una divergenza dominio-specifica, evidenziando punti di forza non sovrapposti nel ragionamento quantitativo rispetto alla sintesi linguistica. Questi risultati sottolineano un significativo "divario esperto" negli attuali sistemi di IA e stabiliscono XpertBench come uno strumento cruciale per guidare la transizione da assistenti generici a collaboratori professionali specializzati.

English

As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.

Xpertbench: Compiti di Livello Esperto con Valutazione Basata su Rubriche

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Abstract

Support