ChatPaper.aiChatPaper

ExpertLongBench: Avaliando Modelos de Linguagem em Tarefas de Geração de Textos Longos de Nível Especializado com Listas de Verificação Estruturadas

ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

June 2, 2025
Autores: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI

Resumo

Este artigo apresenta o ExpertLongBench, um benchmark de nível especializado contendo 11 tarefas de 9 domínios que refletem fluxos de trabalho e aplicações realistas de especialistas. Além de questionários, as tarefas orientadas por aplicações no ExpertLongBench exigem saídas de longo formato que podem ultrapassar 5.000 tokens e uma adesão rigorosa a requisitos específicos do domínio. Notavelmente, cada tarefa no ExpertLongBench inclui uma rubrica, projetada ou validada por especialistas do domínio, para especificar os requisitos da tarefa e orientar a avaliação das saídas. Além disso, propomos o CLEAR, um framework de avaliação que suporta a avaliação precisa de saídas de longo formato em nosso benchmark. Para alcançar uma avaliação detalhada e alinhada com especialistas, o CLEAR deriva listas de verificação tanto das saídas dos modelos quanto das referências, extraindo informações correspondentes aos itens da rubrica específica da tarefa. Os itens da lista de verificação para as saídas dos modelos são então comparados com os itens correspondentes para as saídas de referência, a fim de avaliar sua correção, permitindo uma avaliação fundamentada. Avaliamos 11 modelos de linguagem de grande escala (LLMs) e analisamos os componentes do CLEAR, mostrando que (1) os LLMs existentes, com o melhor desempenho alcançando apenas 26,8% de pontuação F1, requerem melhorias significativas para tarefas de nível especializado; (2) os modelos podem gerar conteúdo correspondente aos aspectos necessários, embora muitas vezes não com precisão; e (3) a extração e comparação precisas de listas de verificação no CLEAR podem ser alcançadas por modelos de peso aberto para um uso mais escalável e de baixo custo.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing 11 tasks from 9 domains that reflect realistic expert workflows and applications. Beyond question answering, the application-driven tasks in ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and strict adherence to domain-specific requirements. Notably, each task in ExpertLongBench includes a rubric, designed or validated by domain experts, to specify task requirements and guide output evaluation. Furthermore, we propose CLEAR, an evaluation framework that supports accurate evaluation of long-form model outputs in our benchmark. To achieve fine-grained, expert-aligned evaluation, CLEAR derives checklists from both model outputs and references by extracting information corresponding to items in the task-specific rubric. Checklist items for model outputs are then compared with corresponding items for reference outputs to assess their correctness, enabling grounded evaluation. We benchmark 11 large language models (LLMs) and analyze components in CLEAR, showing that (1) existing LLMs, with the top performer achieving only a 26.8% F1 score, require significant improvement for expert-level tasks; (2) models can generate content corresponding to the required aspects, though often not accurately; and (3) accurate checklist extraction and comparison in CLEAR can be achieved by open-weight models for more scalable and low-cost usage.
PDF82June 10, 2025