ExpertLongBench : Évaluation des modèles de langage sur des tâches de génération de texte long de niveau expert avec des listes de contrôle structurées

papers.abstract

Cet article présente ExpertLongBench, un benchmark de niveau expert contenant 11 tâches issues de 9 domaines qui reflètent des workflows et des applications réalistes d'experts. Au-delà du simple question-réponse, les tâches orientées application dans ExpertLongBench exigent des réponses longues pouvant dépasser 5 000 tokens et un strict respect des exigences spécifiques à chaque domaine. Notamment, chaque tâche dans ExpertLongBench inclut une grille d'évaluation, conçue ou validée par des experts du domaine, pour spécifier les exigences de la tâche et guider l'évaluation des réponses. Par ailleurs, nous proposons CLEAR, un cadre d'évaluation qui permet une évaluation précise des réponses longues générées par les modèles dans notre benchmark. Pour parvenir à une évaluation fine et alignée sur les critères experts, CLEAR dérive des listes de contrôle à partir des réponses des modèles et des références en extrayant les informations correspondant aux éléments de la grille d'évaluation spécifique à la tâche. Les éléments de la liste de contrôle pour les réponses des modèles sont ensuite comparés aux éléments correspondants pour les réponses de référence afin d'évaluer leur exactitude, permettant ainsi une évaluation fondée. Nous évaluons 11 grands modèles de langage (LLM) et analysons les composants de CLEAR, montrant que (1) les LLM existants, avec le meilleur modèle atteignant seulement un score F1 de 26,8 %, nécessitent des améliorations significatives pour les tâches de niveau expert ; (2) les modèles peuvent générer du contenu correspondant aux aspects requis, bien que souvent de manière inexacte ; et (3) l'extraction et la comparaison précises des listes de contrôle dans CLEAR peuvent être réalisées par des modèles à poids ouverts pour une utilisation plus évolutive et à moindre coût.

English

This paper introduces ExpertLongBench, an expert-level benchmark containing 11 tasks from 9 domains that reflect realistic expert workflows and applications. Beyond question answering, the application-driven tasks in ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and strict adherence to domain-specific requirements. Notably, each task in ExpertLongBench includes a rubric, designed or validated by domain experts, to specify task requirements and guide output evaluation. Furthermore, we propose CLEAR, an evaluation framework that supports accurate evaluation of long-form model outputs in our benchmark. To achieve fine-grained, expert-aligned evaluation, CLEAR derives checklists from both model outputs and references by extracting information corresponding to items in the task-specific rubric. Checklist items for model outputs are then compared with corresponding items for reference outputs to assess their correctness, enabling grounded evaluation. We benchmark 11 large language models (LLMs) and analyze components in CLEAR, showing that (1) existing LLMs, with the top performer achieving only a 26.8% F1 score, require significant improvement for expert-level tasks; (2) models can generate content corresponding to the required aspects, though often not accurately; and (3) accurate checklist extraction and comparison in CLEAR can be achieved by open-weight models for more scalable and low-cost usage.

ExpertLongBench : Évaluation des modèles de langage sur des tâches de génération de texte long de niveau expert avec des listes de contrôle structurées

ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

papers.abstract

Support