ProfBench: Multidomänen-Bewertungsraster, die Fachwissen zur Beantwortung und Beurteilung erfordern
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
October 21, 2025
papers.authors: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
papers.abstract
Die Bewertung des Fortschritts bei großen Sprachmodellen (LLMs) wird häufig durch die Herausforderung eingeschränkt, Antworten zu überprüfen, was die Bewertungen auf Aufgaben wie Mathematik, Programmierung und kurze Frage-Antwort-Formate beschränkt. Viele reale Anwendungen erfordern jedoch die Bewertung von LLMs bei der Verarbeitung professioneller Dokumente, der Synthese von Informationen und der Erstellung umfassender Berichte als Reaktion auf Benutzeranfragen. Wir stellen ProfBench vor: eine Sammlung von über 7000 Antwort-Kriterium-Paaren, die von menschlichen Experten mit Fachwissen in den Bereichen Physik-Promotion, Chemie-Promotion, Finance-MBA und Consulting-MBA bewertet wurden. Wir entwickeln robuste und kostengünstige LLM-Bewerter, um die ProfBench-Kriterien zu evaluieren, indem wir den Selbstverstärkungsbias reduzieren und die Bewertungskosten um das 2-3-fache senken, um sie fair und zugänglich für die breitere Gemeinschaft zu machen. Unsere Ergebnisse zeigen, dass ProfBench selbst für modernste LLMs erhebliche Herausforderungen darstellt, wobei Spitzenmodelle wie GPT-5-high nur eine Gesamtleistung von 65,9\% erreichen. Darüber hinaus identifizieren wir bemerkenswerte Leistungsunterschiede zwischen proprietären und Open-Weight-Modellen und geben Einblicke in die Rolle, die erweitertes Denken bei der Bewältigung komplexer, professioneller Aufgaben spielt. Daten: https://huggingface.co/datasets/nvidia/ProfBench und Code: https://github.com/NVlabs/ProfBench
English
Evaluating progress in large language models (LLMs) is often constrained by
the challenge of verifying responses, limiting assessments to tasks like
mathematics, programming, and short-form question-answering. However, many
real-world applications require evaluating LLMs in processing professional
documents, synthesizing information, and generating comprehensive reports in
response to user queries. We introduce ProfBench: a set of over 7000
response-criterion pairs as evaluated by human-experts with professional
knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We
build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by
mitigating self-enhancement bias and reducing the cost of evaluation by 2-3
orders of magnitude, to make it fair and accessible to the broader community.
Our findings reveal that ProfBench poses significant challenges even for
state-of-the-art LLMs, with top-performing models like GPT-5-high achieving
only 65.9\% overall performance. Furthermore, we identify notable performance
disparities between proprietary and open-weight models and provide insights
into the role that extended thinking plays in addressing complex,
professional-domain tasks. Data:
https://huggingface.co/datasets/nvidia/ProfBench and Code:
https://github.com/NVlabs/ProfBench