ChatPaper.aiChatPaper

ExpertLongBench: 구조화된 체크리스트를 활용한 전문가 수준의 장문 생성 작업에서의 언어 모델 벤치마킹

ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

June 2, 2025
저자: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI

초록

본 논문은 전문가 수준의 워크플로우와 애플리케이션을 반영한 9개 도메인의 11개 작업을 포함하는 ExpertLongBench 벤치마크를 소개합니다. 질의응답을 넘어, ExpertLongBench의 애플리케이션 중심 작업은 5,000 토큰을 초과할 수 있는 장문의 출력과 도메인별 요구사항의 엄격한 준수를 요구합니다. 특히, ExpertLongBench의 각 작업은 도메인 전문가가 설계하거나 검증한 루브릭을 포함하여 작업 요구사항을 명시하고 출력 평가를 안내합니다. 더불어, 우리는 벤치마크 내 장문 모델 출력의 정확한 평가를 지원하는 CLEAR 평가 프레임워크를 제안합니다. 세분화되고 전문가와 일치하는 평가를 달성하기 위해, CLEAR는 작업별 루브릭의 항목에 해당하는 정보를 추출하여 모델 출력과 참조 출력으로부터 체크리스트를 도출합니다. 모델 출력에 대한 체크리스트 항목은 참조 출력의 해당 항목과 비교되어 정확성을 평가하며, 이는 근거 기반 평가를 가능하게 합니다. 우리는 11개의 대형 언어 모델(LLM)을 벤치마크하고 CLEAR의 구성 요소를 분석하여 다음을 보여줍니다: (1) 최고 성능 모델이 26.8%의 F1 점수를 달성하는 등, 기존 LLM은 전문가 수준 작업에 대해 상당한 개선이 필요함; (2) 모델은 필요한 측면에 해당하는 내용을 생성할 수 있지만, 종종 정확하지 않음; (3) CLEAR에서 정확한 체크리스트 추출 및 비교는 오픈 웨이트 모델로도 달성 가능하여 확장성과 저비용 사용이 가능함.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing 11 tasks from 9 domains that reflect realistic expert workflows and applications. Beyond question answering, the application-driven tasks in ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and strict adherence to domain-specific requirements. Notably, each task in ExpertLongBench includes a rubric, designed or validated by domain experts, to specify task requirements and guide output evaluation. Furthermore, we propose CLEAR, an evaluation framework that supports accurate evaluation of long-form model outputs in our benchmark. To achieve fine-grained, expert-aligned evaluation, CLEAR derives checklists from both model outputs and references by extracting information corresponding to items in the task-specific rubric. Checklist items for model outputs are then compared with corresponding items for reference outputs to assess their correctness, enabling grounded evaluation. We benchmark 11 large language models (LLMs) and analyze components in CLEAR, showing that (1) existing LLMs, with the top performer achieving only a 26.8% F1 score, require significant improvement for expert-level tasks; (2) models can generate content corresponding to the required aspects, though often not accurately; and (3) accurate checklist extraction and comparison in CLEAR can be achieved by open-weight models for more scalable and low-cost usage.
PDF82June 10, 2025