Xpertbench : Tâches de Niveau Expert avec Évaluation Basée sur des Grilles Critériées

Résumé

Alors que les modèles de langage de grande taille (LLM) affichent une performance plafonnante sur les benchmarks conventionnels, un défi crucial persiste : évaluer leur compétence dans des tâches complexes et ouvertes caractérisant une cognition authentique de niveau expert. Les cadres d'évaluation existants souffrent d'une couverture domainiale restreinte, d'une dépendance à des tâches généralistes ou de biais d'auto-évaluation. Pour combler cette lacune, nous présentons XpertBench, un benchmark haute fidélité conçu pour évaluer les LLM dans des domaines professionnels authentiques. XpertBench se compose de 1 346 tâches méticuleusement élaborées réparties en 80 catégories, couvrant la finance, la santé, les services juridiques, l'éducation et la recherche à double voie (STIM et Sciences Humaines). Ces tâches sont issues de plus de 1 000 soumissions par des experts du domaine—incluant des chercheurs d'institutions d'élite et des praticiens dotés d'une vaste expérience clinique ou industrielle—garantissant une validité écologique supérieure. Chaque tâche utilise des grilles d'évaluation détaillées avec principalement 15 à 40 critères pondérés pour évaluer la rigueur professionnelle. Pour faciliter une évaluation scalable mais alignée avec l'humain, nous introduisons ShotJudge, un nouveau paradigme d'évaluation qui emploie des juges LLM étalonnés avec des exemplaires experts en few-shot pour atténuer les biais d'auto-récompense. Notre évaluation empirique des LLM de pointe révèle un plafond de performance prononcé : même les modèles leaders n'atteignent qu'un taux de réussite maximal d'environ 66 %, avec un score moyen avoisinant 55 %. Les modèles présentent également une divergence domainiale, montrant des forces non chevauchantes en raisonnement quantitatif versus synthèse linguistique. Ces résultats soulignent un « fossé expert » significatif dans les systèmes d'IA actuels et établissent XpertBench comme un instrument essentiel pour naviguer la transition d'assistants généralistes vers des collaborateurs professionnels spécialisés.

English

As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.

Xpertbench : Tâches de Niveau Expert avec Évaluation Basée sur des Grilles Critériées

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Résumé

Support