ExpertLongBench : Évaluation des modèles de langage sur des tâches de génération de texte long de niveau expert avec des listes de contrôle structurées
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists
June 2, 2025
Auteurs: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI
Résumé
Cet article présente ExpertLongBench, un benchmark de niveau expert contenant 11 tâches issues de 9 domaines qui reflètent des workflows et des applications réalistes d'experts. Au-delà du simple question-réponse, les tâches orientées application dans ExpertLongBench exigent des réponses longues pouvant dépasser 5 000 tokens et un strict respect des exigences spécifiques à chaque domaine. Notamment, chaque tâche dans ExpertLongBench inclut une grille d'évaluation, conçue ou validée par des experts du domaine, pour spécifier les exigences de la tâche et guider l'évaluation des réponses. Par ailleurs, nous proposons CLEAR, un cadre d'évaluation qui permet une évaluation précise des réponses longues générées par les modèles dans notre benchmark. Pour parvenir à une évaluation fine et alignée sur les critères experts, CLEAR dérive des listes de contrôle à partir des réponses des modèles et des références en extrayant les informations correspondant aux éléments de la grille d'évaluation spécifique à la tâche. Les éléments de la liste de contrôle pour les réponses des modèles sont ensuite comparés aux éléments correspondants pour les réponses de référence afin d'évaluer leur exactitude, permettant ainsi une évaluation fondée. Nous évaluons 11 grands modèles de langage (LLM) et analysons les composants de CLEAR, montrant que (1) les LLM existants, avec le meilleur modèle atteignant seulement un score F1 de 26,8 %, nécessitent des améliorations significatives pour les tâches de niveau expert ; (2) les modèles peuvent générer du contenu correspondant aux aspects requis, bien que souvent de manière inexacte ; et (3) l'extraction et la comparaison précises des listes de contrôle dans CLEAR peuvent être réalisées par des modèles à poids ouverts pour une utilisation plus évolutive et à moindre coût.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing
11 tasks from 9 domains that reflect realistic expert workflows and
applications. Beyond question answering, the application-driven tasks in
ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and
strict adherence to domain-specific requirements. Notably, each task in
ExpertLongBench includes a rubric, designed or validated by domain experts, to
specify task requirements and guide output evaluation. Furthermore, we propose
CLEAR, an evaluation framework that supports accurate evaluation of long-form
model outputs in our benchmark. To achieve fine-grained, expert-aligned
evaluation, CLEAR derives checklists from both model outputs and references by
extracting information corresponding to items in the task-specific rubric.
Checklist items for model outputs are then compared with corresponding items
for reference outputs to assess their correctness, enabling grounded
evaluation. We benchmark 11 large language models (LLMs) and analyze components
in CLEAR, showing that (1) existing LLMs, with the top performer achieving only
a 26.8% F1 score, require significant improvement for expert-level tasks; (2)
models can generate content corresponding to the required aspects, though often
not accurately; and (3) accurate checklist extraction and comparison in CLEAR
can be achieved by open-weight models for more scalable and low-cost usage.