ProfBench: Rúbricas Multidomínio que Exigem Conhecimento Profissional para Responder e Avaliar
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
October 21, 2025
Autores: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
Resumo
A avaliação do progresso em modelos de linguagem de grande escala (LLMs) é frequentemente limitada pelo desafio de verificar respostas, restringindo as avaliações a tarefas como matemática, programação e respostas curtas a perguntas. No entanto, muitas aplicações do mundo real exigem a avaliação de LLMs no processamento de documentos profissionais, na síntese de informações e na geração de relatórios abrangentes em resposta a consultas dos usuários. Apresentamos o ProfBench: um conjunto de mais de 7000 pares de critérios de resposta avaliados por especialistas humanos com conhecimento profissional em PhD em Física, PhD em Química, MBA em Finanças e MBA em Consultoria. Construímos LLM-Judges robustos e acessíveis para avaliar as rubricas do ProfBench, mitigando o viés de autoaprimoramento e reduzindo o custo de avaliação em 2-3 ordens de magnitude, tornando-o justo e acessível para a comunidade em geral. Nossas descobertas revelam que o ProfBench apresenta desafios significativos mesmo para LLMs de última geração, com modelos de alto desempenho como o GPT-5-high alcançando apenas 65,9% de desempenho geral. Além disso, identificamos disparidades notáveis de desempenho entre modelos proprietários e de pesos abertos e fornecemos insights sobre o papel que o pensamento estendido desempenha na abordagem de tarefas complexas em domínios profissionais. Dados: https://huggingface.co/datasets/nvidia/ProfBench e Código: https://github.com/NVlabs/ProfBench
English
Evaluating progress in large language models (LLMs) is often constrained by
the challenge of verifying responses, limiting assessments to tasks like
mathematics, programming, and short-form question-answering. However, many
real-world applications require evaluating LLMs in processing professional
documents, synthesizing information, and generating comprehensive reports in
response to user queries. We introduce ProfBench: a set of over 7000
response-criterion pairs as evaluated by human-experts with professional
knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We
build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by
mitigating self-enhancement bias and reducing the cost of evaluation by 2-3
orders of magnitude, to make it fair and accessible to the broader community.
Our findings reveal that ProfBench poses significant challenges even for
state-of-the-art LLMs, with top-performing models like GPT-5-high achieving
only 65.9\% overall performance. Furthermore, we identify notable performance
disparities between proprietary and open-weight models and provide insights
into the role that extended thinking plays in addressing complex,
professional-domain tasks. Data:
https://huggingface.co/datasets/nvidia/ProfBench and Code:
https://github.com/NVlabs/ProfBench