ChatPaper.aiChatPaper

ExpertLongBench: Evaluación de Modelos de Lenguaje en Tareas de Generación de Texto Largo de Nivel Experto con Listas de Verificación Estructuradas

ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

June 2, 2025
Autores: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI

Resumen

Este artículo presenta ExpertLongBench, un benchmark de nivel experto que contiene 11 tareas de 9 dominios que reflejan flujos de trabajo y aplicaciones realistas de expertos. Más allá de la respuesta a preguntas, las tareas orientadas a aplicaciones en ExpertLongBench requieren salidas de formato largo que pueden superar las 5,000 fichas y una estricta adherencia a los requisitos específicos del dominio. Cabe destacar que cada tarea en ExpertLongBench incluye una rúbrica, diseñada o validada por expertos en el dominio, para especificar los requisitos de la tarea y guiar la evaluación de las salidas. Además, proponemos CLEAR, un marco de evaluación que permite una evaluación precisa de las salidas de formato largo de los modelos en nuestro benchmark. Para lograr una evaluación detallada y alineada con los expertos, CLEAR deriva listas de verificación tanto de las salidas del modelo como de las referencias, extrayendo información correspondiente a los elementos de la rúbrica específica de la tarea. Los elementos de la lista de verificación para las salidas del modelo se comparan luego con los elementos correspondientes para las salidas de referencia para evaluar su corrección, permitiendo una evaluación fundamentada. Evaluamos 11 modelos de lenguaje de gran escala (LLMs) y analizamos los componentes de CLEAR, mostrando que (1) los LLMs existentes, con el mejor desempeño alcanzando solo un 26.8% de puntuación F1, requieren una mejora significativa para tareas de nivel experto; (2) los modelos pueden generar contenido correspondiente a los aspectos requeridos, aunque a menudo no con precisión; y (3) la extracción y comparación precisa de listas de verificación en CLEAR puede ser lograda por modelos de peso abierto para un uso más escalable y de bajo costo.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing 11 tasks from 9 domains that reflect realistic expert workflows and applications. Beyond question answering, the application-driven tasks in ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and strict adherence to domain-specific requirements. Notably, each task in ExpertLongBench includes a rubric, designed or validated by domain experts, to specify task requirements and guide output evaluation. Furthermore, we propose CLEAR, an evaluation framework that supports accurate evaluation of long-form model outputs in our benchmark. To achieve fine-grained, expert-aligned evaluation, CLEAR derives checklists from both model outputs and references by extracting information corresponding to items in the task-specific rubric. Checklist items for model outputs are then compared with corresponding items for reference outputs to assess their correctness, enabling grounded evaluation. We benchmark 11 large language models (LLMs) and analyze components in CLEAR, showing that (1) existing LLMs, with the top performer achieving only a 26.8% F1 score, require significant improvement for expert-level tasks; (2) models can generate content corresponding to the required aspects, though often not accurately; and (3) accurate checklist extraction and comparison in CLEAR can be achieved by open-weight models for more scalable and low-cost usage.
PDF82June 10, 2025