ChatPaper.aiChatPaper

ExpertLongBench: Het benchmarken van taalmodelen op expertniveau lange-vorm generatietaken met gestructureerde controlelijsten

ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

June 2, 2025
Auteurs: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI

Samenvatting

Dit artikel introduceert ExpertLongBench, een expertniveau-benchmark die 11 taken uit 9 domeinen bevat en realistische expertworkflows en -toepassingen weerspiegelt. Naast vraag-antwoordtaken vereisen de toepassingsgerichte taken in ExpertLongBench uitgebreide outputs die meer dan 5.000 tokens kunnen omvatten en strikte naleving van domeinspecifieke vereisten. Opmerkelijk is dat elke taak in ExpertLongBench een rubric bevat, ontworpen of gevalideerd door domeinexperts, om de taakvereisten te specificeren en de evaluatie van de output te begeleiden. Verder stellen we CLEAR voor, een evaluatieraamwerk dat nauwkeurige evaluatie van langere modeloutputs in onze benchmark ondersteunt. Om een gedetailleerde, expert-afgestemde evaluatie te bereiken, haalt CLEAR checklisten af van zowel modeloutputs als referenties door informatie te extraheren die overeenkomt met items in de taakspecifieke rubric. Checklistitems voor modeloutputs worden vervolgens vergeleken met overeenkomstige items voor referentie-outputs om hun juistheid te beoordelen, wat een gefundeerde evaluatie mogelijk maakt. We benchmarken 11 grote taalmodelen (LLM's) en analyseren componenten in CLEAR, waarbij we aantonen dat (1) bestaande LLM's, met de beste presteerder die slechts een F1-score van 26,8% behaalt, aanzienlijke verbetering nodig hebben voor taken op expertniveau; (2) modellen inhoud kunnen genereren die overeenkomt met de vereiste aspecten, hoewel vaak niet nauwkeurig; en (3) nauwkeurige extractie en vergelijking van checklisten in CLEAR kan worden bereikt door open-weight modellen voor meer schaalbare en kosteneffectieve toepassingen.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing 11 tasks from 9 domains that reflect realistic expert workflows and applications. Beyond question answering, the application-driven tasks in ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and strict adherence to domain-specific requirements. Notably, each task in ExpertLongBench includes a rubric, designed or validated by domain experts, to specify task requirements and guide output evaluation. Furthermore, we propose CLEAR, an evaluation framework that supports accurate evaluation of long-form model outputs in our benchmark. To achieve fine-grained, expert-aligned evaluation, CLEAR derives checklists from both model outputs and references by extracting information corresponding to items in the task-specific rubric. Checklist items for model outputs are then compared with corresponding items for reference outputs to assess their correctness, enabling grounded evaluation. We benchmark 11 large language models (LLMs) and analyze components in CLEAR, showing that (1) existing LLMs, with the top performer achieving only a 26.8% F1 score, require significant improvement for expert-level tasks; (2) models can generate content corresponding to the required aspects, though often not accurately; and (3) accurate checklist extraction and comparison in CLEAR can be achieved by open-weight models for more scalable and low-cost usage.
PDF82June 10, 2025