Xpertbench: Tarefas de Nível Especialista com Avaliação Baseada em Rubricas

Resumo

À medida que os Modelos de Linguagem de Grande Porte (LLMs) apresentam um desempenho estagnado em benchmarks convencionais, um desafio fundamental persiste: avaliar sua proficiência em tarefas complexas e de natureza aberta que caracterizam a cognição genuína em nível de especialista. As estruturas existentes sofrem com cobertura limitada de domínios, dependência de tarefas generalistas ou vieses de autoavaliação. Para preencher essa lacuna, apresentamos o XpertBench, um benchmark de alta fidelidade projetado para avaliar LLMs em domínios profissionais autênticos. O XpertBench consiste em 1.346 tarefas meticulosamente curadas em 80 categorias, abrangendo finanças, saúde, serviços jurídicos, educação e pesquisa de dupla via (STEM e Humanidades). Essas tarefas são derivadas de mais de 1.000 submissões de especialistas de domínio—incluindo pesquisadores de instituições de elite e profissionais com extensa experiência clínica ou industrial—garantindo validade ecológica superior. Cada tarefa utiliza rubricas detalhadas com maioritariamente 15 a 40 critérios de avaliação ponderados para aferir o rigor profissional. Para facilitar uma avaliação escalonável e alinhada com critérios humanos, introduzimos o ShotJudge, um novo paradigma de avaliação que emprega juízes baseados em LLMs calibrados com exemplos *few-shot* de especialistas para mitigar vieses de autorrecompensa. Nossa avaliação empírica de LLMs estado da arte revela um teto de desempenho pronunciado: mesmo os modelos líderes atingem uma taxa de sucesso máxima de apenas ~66%, com uma pontuação média em torno de 55%. Os modelos também exibem divergência específica por domínio, mostrando pontos fortes não sobrepostos no raciocínio quantitativo versus síntese linguística. Essas descobertas ressaltam uma significativa "lacuna de especialista" nos sistemas atuais de IA e estabelecem o XpertBench como um instrumento crítico para orientar a transição de assistentes de propósito geral para colaboradores profissionais especializados.

English

As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.

Xpertbench: Tarefas de Nível Especialista com Avaliação Baseada em Rubricas

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Resumo

Support