Xpertbench: Tareas de Nivel Experto con Evaluación Basada en Rúbricas

Resumen

A medida que los Modelos de Lenguaje a Gran Escala (LLMs) muestran un estancamiento en su rendimiento en benchmarks convencionales, persiste un desafío fundamental: evaluar su competencia en tareas complejas y abiertas que caracterizan una cognición genuina a nivel de experto. Los marcos de evaluación existentes adolecen de una cobertura limitada de dominios, dependencia de tareas generalistas o sesgos de autoevaluación. Para cerrar esta brecha, presentamos XpertBench, un benchmark de alta fidelidad diseñado para evaluar LLMs en dominios profesionales auténticos. XpertBench consta de 1.346 tareas meticulosamente seleccionadas en 80 categorías, que abarcan finanzas, salud, servicios legales, educación e investigación de doble vía (STEM y Humanidades). Estas tareas se derivan de más de 1.000 contribuciones de expertos en el dominio—incluyendo investigadores de instituciones de élite y profesionales con amplia experiencia clínica o industrial—lo que garantiza una validez ecológica superior. Cada tarea utiliza rúbricas detalladas con entre 15 y 40 puntos de verificación ponderados para evaluar el rigor profesional. Para facilitar una evaluación escalable y alineada con criterios humanos, introducimos ShotJudge, un nuevo paradigma de evaluación que emplea jueces basados en LLMs calibrados con ejemplos expertos *few-shot* para mitigar los sesgos de autorrecompensa. Nuestra evaluación empírica de los LLMs más avanzados revela un pronunciado techo de rendimiento: incluso los modelos líderes alcanzan una tasa máxima de éxito de solo ~66%, con una puntuación media en torno al 55%. Los modelos también exhiben divergencia específica del dominio, mostrando fortalezas no superpuestas en el razonamiento cuantitativo frente a la síntesis lingüística. Estos hallazgos subrayan una "brecha de expertise" significativa en los sistemas de IA actuales y establecen a XpertBench como un instrumento crucial para guiar la transición de asistentes de propósito general a colaboradores profesionales especializados.

English

As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.

Xpertbench: Tareas de Nivel Experto con Evaluación Basada en Rúbricas

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Resumen

Support