ExpertLongBench: Benchmarking von Sprachmodellen bei Experten-Level-Langform-Generationsaufgaben mit strukturierten Checklisten
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists
June 2, 2025
Autoren: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI
Zusammenfassung
Dieses Papier stellt ExpertLongBench vor, einen Benchmark auf Expertenniveau, der 11 Aufgaben aus 9 Domänen umfasst, die realistische Expertenworkflows und -anwendungen widerspiegeln. Über einfache Frage-Antwort-Szenarien hinaus erfordern die anwendungsgetriebenen Aufgaben in ExpertLongBench langformatige Ausgaben, die 5.000 Tokens überschreiten können, sowie strikte Einhaltung domänenspezifischer Anforderungen. Bemerkenswerterweise enthält jede Aufgabe in ExpertLongBench ein Bewertungsschema, das von Domänenexperten entworfen oder validiert wurde, um die Aufgabenanforderungen zu spezifizieren und die Bewertung der Ausgaben zu leiten. Darüber hinaus schlagen wir CLEAR vor, ein Bewertungsframework, das eine präzise Bewertung langformatiger Modellausgaben in unserem Benchmark unterstützt. Um eine feingranulare, expertenorientierte Bewertung zu erreichen, leitet CLEAR Checklisten sowohl aus den Modellausgaben als auch aus den Referenzen ab, indem Informationen extrahiert werden, die den Punkten im aufgabenspezifischen Bewertungsschema entsprechen. Die Checklistenpunkte für die Modellausgaben werden dann mit den entsprechenden Punkten für die Referenzausgaben verglichen, um deren Korrektheit zu bewerten, was eine fundierte Bewertung ermöglicht. Wir benchmarken 11 große Sprachmodelle (LLMs) und analysieren die Komponenten in CLEAR, wobei wir zeigen, dass (1) bestehende LLMs, bei denen das beste Modell nur einen F1-Score von 26,8 % erreicht, erhebliche Verbesserungen für Aufgaben auf Expertenniveau benötigen; (2) Modelle Inhalte generieren können, die den erforderlichen Aspekten entsprechen, oft jedoch nicht präzise; und (3) eine genaue Extraktion und Vergleich von Checklisten in CLEAR durch Open-Weight-Modelle erreicht werden kann, um eine skalierbarere und kostengünstigere Nutzung zu ermöglichen.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing
11 tasks from 9 domains that reflect realistic expert workflows and
applications. Beyond question answering, the application-driven tasks in
ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and
strict adherence to domain-specific requirements. Notably, each task in
ExpertLongBench includes a rubric, designed or validated by domain experts, to
specify task requirements and guide output evaluation. Furthermore, we propose
CLEAR, an evaluation framework that supports accurate evaluation of long-form
model outputs in our benchmark. To achieve fine-grained, expert-aligned
evaluation, CLEAR derives checklists from both model outputs and references by
extracting information corresponding to items in the task-specific rubric.
Checklist items for model outputs are then compared with corresponding items
for reference outputs to assess their correctness, enabling grounded
evaluation. We benchmark 11 large language models (LLMs) and analyze components
in CLEAR, showing that (1) existing LLMs, with the top performer achieving only
a 26.8% F1 score, require significant improvement for expert-level tasks; (2)
models can generate content corresponding to the required aspects, though often
not accurately; and (3) accurate checklist extraction and comparison in CLEAR
can be achieved by open-weight models for more scalable and low-cost usage.