ProfBench: Многодоменные критерии, требующие профессиональных знаний для ответа и оценки
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge
October 21, 2025
Авторы: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
Аннотация
Оценка прогресса в крупных языковых моделях (LLM) часто ограничивается сложностью проверки ответов, что сужает область оценивания до таких задач, как математика, программирование и краткие ответы на вопросы. Однако многие реальные приложения требуют оценки LLM в обработке профессиональных документов, синтезе информации и создании комплексных отчетов в ответ на пользовательские запросы. Мы представляем ProfBench: набор из более чем 7000 пар "ответ-критерий", оцененных экспертами с профессиональными знаниями в областях PhD по физике, PhD по химии, MBA в финансах и MBA в консалтинге. Мы создаем надежные и доступные LLM-оценщики для анализа критериев ProfBench, устраняя предвзятость самоусиления и снижая стоимость оценки на 2-3 порядка величины, чтобы сделать ее справедливой и доступной для широкого сообщества. Наши результаты показывают, что ProfBench представляет значительные вызовы даже для современных LLM, при этом лучшие модели, такие как GPT-5-high, достигают лишь 65,9% общей производительности. Кроме того, мы выявляем заметные различия в производительности между проприетарными и открытыми моделями и предоставляем инсайты о роли расширенного мышления в решении сложных задач профессиональной области. Данные: https://huggingface.co/datasets/nvidia/ProfBench и код: https://github.com/NVlabs/ProfBench.
English
Evaluating progress in large language models (LLMs) is often constrained by
the challenge of verifying responses, limiting assessments to tasks like
mathematics, programming, and short-form question-answering. However, many
real-world applications require evaluating LLMs in processing professional
documents, synthesizing information, and generating comprehensive reports in
response to user queries. We introduce ProfBench: a set of over 7000
response-criterion pairs as evaluated by human-experts with professional
knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We
build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by
mitigating self-enhancement bias and reducing the cost of evaluation by 2-3
orders of magnitude, to make it fair and accessible to the broader community.
Our findings reveal that ProfBench poses significant challenges even for
state-of-the-art LLMs, with top-performing models like GPT-5-high achieving
only 65.9\% overall performance. Furthermore, we identify notable performance
disparities between proprietary and open-weight models and provide insights
into the role that extended thinking plays in addressing complex,
professional-domain tasks. Data:
https://huggingface.co/datasets/nvidia/ProfBench and Code:
https://github.com/NVlabs/ProfBench