ChatPaper.aiChatPaper

ProfBench: Rúbricas Multidominio que Requieren Conocimiento Profesional para Responder y Evaluar

ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge

October 21, 2025
Autores: Zhilin Wang, Jaehun Jung, Ximing Lu, Shizhe Diao, Ellie Evans, Jiaqi Zeng, Pavlo Molchanov, Yejin Choi, Jan Kautz, Yi Dong
cs.AI

Resumen

Evaluar el progreso en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo se ve limitado por el desafío de verificar las respuestas, restringiendo las evaluaciones a tareas como matemáticas, programación y respuestas breves a preguntas. Sin embargo, muchas aplicaciones del mundo real requieren evaluar los LLMs en el procesamiento de documentos profesionales, la síntesis de información y la generación de informes completos en respuesta a consultas de los usuarios. Presentamos ProfBench: un conjunto de más de 7000 pares de respuesta-criterio evaluados por expertos humanos con conocimientos profesionales en doctorados en Física, doctorados en Química, MBAs en Finanzas y MBAs en Consultoría. Desarrollamos evaluadores robustos y asequibles basados en LLMs (LLM-Judges) para evaluar las rúbricas de ProfBench, mitigando el sesgo de auto-mejora y reduciendo el costo de evaluación en 2-3 órdenes de magnitud, con el fin de hacerlo justo y accesible para una comunidad más amplia. Nuestros hallazgos revelan que ProfBench plantea desafíos significativos incluso para los LLMs más avanzados, con modelos de alto rendimiento como GPT-5-high alcanzando solo un 65.9\% de rendimiento general. Además, identificamos disparidades notables en el rendimiento entre modelos propietarios y de pesos abiertos, y proporcionamos insights sobre el papel que desempeña el pensamiento extendido en la resolución de tareas complejas en dominios profesionales. Datos: https://huggingface.co/datasets/nvidia/ProfBench y Código: https://github.com/NVlabs/ProfBench.
English
Evaluating progress in large language models (LLMs) is often constrained by the challenge of verifying responses, limiting assessments to tasks like mathematics, programming, and short-form question-answering. However, many real-world applications require evaluating LLMs in processing professional documents, synthesizing information, and generating comprehensive reports in response to user queries. We introduce ProfBench: a set of over 7000 response-criterion pairs as evaluated by human-experts with professional knowledge across Physics PhD, Chemistry PhD, Finance MBA and Consulting MBA. We build robust and affordable LLM-Judges to evaluate ProfBench rubrics, by mitigating self-enhancement bias and reducing the cost of evaluation by 2-3 orders of magnitude, to make it fair and accessible to the broader community. Our findings reveal that ProfBench poses significant challenges even for state-of-the-art LLMs, with top-performing models like GPT-5-high achieving only 65.9\% overall performance. Furthermore, we identify notable performance disparities between proprietary and open-weight models and provide insights into the role that extended thinking plays in addressing complex, professional-domain tasks. Data: https://huggingface.co/datasets/nvidia/ProfBench and Code: https://github.com/NVlabs/ProfBench
PDF21October 23, 2025