ProfBench: Griglie di valutazione multi-dominio che richiedono conoscenze professionali per rispondere e giudicare
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
October 21, 2025
Autori: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
Abstract
Valutare i progressi nei modelli linguistici di grandi dimensioni (LLM) è spesso limitato dalla difficoltà di verificare le risposte, restringendo le valutazioni a compiti come matematica, programmazione e risposte brevi a domande. Tuttavia, molte applicazioni nel mondo reale richiedono di valutare gli LLM nell'elaborazione di documenti professionali, nella sintesi di informazioni e nella generazione di report completi in risposta alle query degli utenti. Introduciamo ProfBench: un insieme di oltre 7000 coppie risposta-criterio valutate da esperti umani con conoscenze professionali in ambiti come PhD in Fisica, PhD in Chimica, MBA in Finanza e MBA in Consulenza. Costruiamo giudici LLM robusti ed economici per valutare i criteri di ProfBench, mitigando il bias di auto-miglioramento e riducendo il costo della valutazione di 2-3 ordini di grandezza, rendendola equa e accessibile a una comunità più ampia. I nostri risultati rivelano che ProfBench pone sfide significative anche per gli LLM all'avanguardia, con i modelli migliori come GPT-5-high che raggiungono solo il 65,9% di prestazione complessiva. Inoltre, identifichiamo notevoli disparità di prestazione tra modelli proprietari e modelli open-weight e forniamo approfondimenti sul ruolo che il pensiero esteso svolge nell'affrontare compiti complessi in domini professionali. Dati: https://huggingface.co/datasets/nvidia/ProfBench e Codice: https://github.com/NVlabs/ProfBench
English
Evaluating progress in large language models (LLMs) is often constrained by
the challenge of verifying responses, limiting assessments to tasks like
mathematics, programming, and short-form question-answering. However, many
real-world applications require evaluating LLMs in processing professional
documents, synthesizing information, and generating comprehensive reports in
response to user queries. We introduce ProfBench: a set of over 7000
response-criterion pairs as evaluated by human-experts with professional
knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We
build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by
mitigating self-enhancement bias and reducing the cost of evaluation by 2-3
orders of magnitude, to make it fair and accessible to the broader community.
Our findings reveal that ProfBench poses significant challenges even for
state-of-the-art LLMs, with top-performing models like GPT-5-high achieving
only 65.9\% overall performance. Furthermore, we identify notable performance
disparities between proprietary and open-weight models and provide insights
into the role that extended thinking plays in addressing complex,
professional-domain tasks. Data:
https://huggingface.co/datasets/nvidia/ProfBench and Code:
https://github.com/NVlabs/ProfBench