ProfBench : Grilles d'évaluation multidomaines nécessitant des connaissances professionnelles pour répondre et évaluer
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
October 21, 2025
papers.authors: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
papers.abstract
L'évaluation des progrès des grands modèles de langage (LLMs) est souvent limitée par la difficulté de vérifier les réponses, ce qui restreint les évaluations à des tâches telles que les mathématiques, la programmation et les réponses courtes à des questions. Cependant, de nombreuses applications réelles nécessitent d'évaluer les LLMs dans le traitement de documents professionnels, la synthèse d'informations et la génération de rapports complets en réponse aux requêtes des utilisateurs. Nous présentons ProfBench : un ensemble de plus de 7000 paires réponse-critère évaluées par des experts humains possédant des connaissances professionnelles dans des domaines tels que le doctorat en physique, le doctorat en chimie, le MBA en finance et le MBA en conseil. Nous développons des LLM-Juges robustes et économiques pour évaluer les critères de ProfBench, en atténuant le biais d'auto-amélioration et en réduisant le coût de l'évaluation de 2 à 3 ordres de grandeur, afin de la rendre équitable et accessible à une communauté plus large. Nos résultats révèlent que ProfBench pose des défis significatifs même pour les LLMs les plus avancés, avec des modèles performants comme GPT-5-high atteignant seulement 65,9 % de performance globale. De plus, nous identifions des disparités notables de performance entre les modèles propriétaires et les modèles à poids ouverts, et nous fournissons des insights sur le rôle que joue la pensée étendue dans la résolution de tâches complexes dans des domaines professionnels. Données : https://huggingface.co/datasets/nvidia/ProfBench et Code : https://github.com/NVlabs/ProfBench
English
Evaluating progress in large language models (LLMs) is often constrained by
the challenge of verifying responses, limiting assessments to tasks like
mathematics, programming, and short-form question-answering. However, many
real-world applications require evaluating LLMs in processing professional
documents, synthesizing information, and generating comprehensive reports in
response to user queries. We introduce ProfBench: a set of over 7000
response-criterion pairs as evaluated by human-experts with professional
knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We
build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by
mitigating self-enhancement bias and reducing the cost of evaluation by 2-3
orders of magnitude, to make it fair and accessible to the broader community.
Our findings reveal that ProfBench poses significant challenges even for
state-of-the-art LLMs, with top-performing models like GPT-5-high achieving
only 65.9\% overall performance. Furthermore, we identify notable performance
disparities between proprietary and open-weight models and provide insights
into the role that extended thinking plays in addressing complex,
professional-domain tasks. Data:
https://huggingface.co/datasets/nvidia/ProfBench and Code:
https://github.com/NVlabs/ProfBench