ChatPaper.aiChatPaper

ProfBench: 전문 지식을 요구하여 답변하고 평가하는 다중 영역 루브릭

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

October 21, 2025
저자: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI

초록

대규모 언어 모델(LLM)의 진전을 평가하는 것은 종종 응답을 검증하는 데 어려움이 있어 수학, 프로그래밍, 짧은 형식의 질문-응답과 같은 작업으로 평가가 제한된다. 그러나 많은 실제 응용 프로그램에서는 전문 문서 처리, 정보 종합, 사용자 질의에 대한 포괄적인 보고서 생성 등에서 LLM을 평가해야 한다. 우리는 ProfBench를 소개한다: 물리학 박사, 화학 박사, 금융 MBA, 컨설팅 MBA 등 전문 지식을 가진 인간 전문가가 평가한 7000개 이상의 응답-기준 쌍으로 구성된 데이터셋이다. 우리는 자가 강화 편향을 완화하고 평가 비용을 2-3배 줄여 더 넓은 커뮤니티가 공정하고 접근 가능하게 사용할 수 있는 강력하고 경제적인 LLM-Judge를 구축했다. 우리의 연구 결과는 ProfBench가 최첨단 LLM에게도 상당한 도전을 제시하며, GPT-5-high와 같은 최고 성능 모델도 전체 성능이 65.9%에 불과하다는 것을 보여준다. 또한, 독점 모델과 오픈 웨이트 모델 간의 성능 차이를 확인하고, 복잡한 전문 도메인 작업을 해결하는 데 확장된 사고가 어떤 역할을 하는지에 대한 통찰을 제공한다. 데이터: https://huggingface.co/datasets/nvidia/ProfBench 및 코드: https://github.com/NVlabs/ProfBench
English
Evaluating progress in large language models (LLMs) is often constrained by the challenge of verifying responses, limiting assessments to tasks like mathematics, programming, and short-form question-answering. However, many real-world applications require evaluating LLMs in processing professional documents, synthesizing information, and generating comprehensive reports in response to user queries. We introduce ProfBench: a set of over 7000 response-criterion pairs as evaluated by human-experts with professional knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by mitigating self-enhancement bias and reducing the cost of evaluation by 2-3 orders of magnitude, to make it fair and accessible to the broader community. Our findings reveal that ProfBench poses significant challenges even for state-of-the-art LLMs, with top-performing models like GPT-5-high achieving only 65.9\% overall performance. Furthermore, we identify notable performance disparities between proprietary and open-weight models and provide insights into the role that extended thinking plays in addressing complex, professional-domain tasks. Data: https://huggingface.co/datasets/nvidia/ProfBench and Code: https://github.com/NVlabs/ProfBench
PDF21October 23, 2025