ExpertLongBench: Valutazione dei Modelli Linguistici su Compiti di Generazione di Testi Lunghi di Livello Esperto con Checklist Strutturate
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists
June 2, 2025
Autori: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI
Abstract
Questo articolo introduce ExpertLongBench, un benchmark di livello esperto contenente 11 task provenienti da 9 domini che riflettono flussi di lavoro e applicazioni realistiche di esperti. Oltre al question answering, i task guidati dall'applicazione in ExpertLongBench richiedono output di forma lunga che possono superare i 5.000 token e un rigoroso rispetto dei requisiti specifici del dominio. In particolare, ogni task in ExpertLongBench include una rubrica, progettata o validata da esperti del dominio, per specificare i requisiti del task e guidare la valutazione degli output. Inoltre, proponiamo CLEAR, un framework di valutazione che supporta una valutazione accurata degli output di forma lunga nel nostro benchmark. Per ottenere una valutazione granulare e allineata agli esperti, CLEAR deriva checklist sia dagli output del modello che dai riferimenti, estraendo informazioni corrispondenti agli elementi della rubrica specifica del task. Gli elementi della checklist per gli output del modello vengono poi confrontati con i corrispondenti elementi per gli output di riferimento per valutarne la correttezza, consentendo una valutazione fondata. Valutiamo 11 modelli linguistici di grandi dimensioni (LLM) e analizziamo i componenti di CLEAR, dimostrando che (1) gli LLM esistenti, con il miglior risultato che raggiunge solo un punteggio F1 del 26,8%, richiedono un miglioramento significativo per i task di livello esperto; (2) i modelli possono generare contenuti corrispondenti agli aspetti richiesti, anche se spesso non in modo accurato; e (3) l'estrazione e il confronto accurati delle checklist in CLEAR possono essere raggiunti da modelli open-weight per un utilizzo più scalabile e a basso costo.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing
11 tasks from 9 domains that reflect realistic expert workflows and
applications. Beyond question answering, the application-driven tasks in
ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and
strict adherence to domain-specific requirements. Notably, each task in
ExpertLongBench includes a rubric, designed or validated by domain experts, to
specify task requirements and guide output evaluation. Furthermore, we propose
CLEAR, an evaluation framework that supports accurate evaluation of long-form
model outputs in our benchmark. To achieve fine-grained, expert-aligned
evaluation, CLEAR derives checklists from both model outputs and references by
extracting information corresponding to items in the task-specific rubric.
Checklist items for model outputs are then compared with corresponding items
for reference outputs to assess their correctness, enabling grounded
evaluation. We benchmark 11 large language models (LLMs) and analyze components
in CLEAR, showing that (1) existing LLMs, with the top performer achieving only
a 26.8% F1 score, require significant improvement for expert-level tasks; (2)
models can generate content corresponding to the required aspects, though often
not accurately; and (3) accurate checklist extraction and comparison in CLEAR
can be achieved by open-weight models for more scalable and low-cost usage.