ExpertLongBench: Оценка языковых моделей на задачах генерации экспертного уровня с длинными текстами с использованием структурированных чек-листов
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists
June 2, 2025
Авторы: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
cs.AI
Аннотация
В данной статье представлен ExpertLongBench — экспертный бенчмарк, содержащий 11 задач из 9 областей, которые отражают реалистичные рабочие процессы и приложения экспертного уровня. В отличие от простого ответа на вопросы, задачи в ExpertLongBench, ориентированные на практическое применение, требуют создания длинных текстов, которые могут превышать 5 000 токенов, и строгого соблюдения специфических для каждой области требований. Примечательно, что каждая задача в ExpertLongBench включает рубрику, разработанную или проверенную экспертами в соответствующей области, которая определяет требования к задаче и служит руководством для оценки результатов. Кроме того, мы предлагаем CLEAR — оценочную структуру, которая обеспечивает точную оценку длинных текстовых выводов моделей в нашем бенчмарке. Для достижения детализированной оценки, согласованной с экспертными стандартами, CLEAR формирует контрольные списки на основе как выводов моделей, так и эталонных текстов, извлекая информацию, соответствующую пунктам в специфической для задачи рубрике. Затем пункты контрольных списков для выводов моделей сравниваются с соответствующими пунктами для эталонных выводов, чтобы оценить их корректность, что позволяет проводить обоснованную оценку. Мы протестировали 11 крупных языковых моделей (LLM) и проанализировали компоненты CLEAR, показав, что (1) существующие LLM, даже лучшая из которых достигает лишь 26,8% по F1-метрике, требуют значительного улучшения для выполнения задач экспертного уровня; (2) модели способны генерировать контент, соответствующий требуемым аспектам, хотя часто не точно; и (3) точное извлечение и сравнение контрольных списков в CLEAR может быть достигнуто с использованием моделей с открытыми весами для более масштабируемого и экономически эффективного использования.
English
This paper introduces ExpertLongBench, an expert-level benchmark containing
11 tasks from 9 domains that reflect realistic expert workflows and
applications. Beyond question answering, the application-driven tasks in
ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and
strict adherence to domain-specific requirements. Notably, each task in
ExpertLongBench includes a rubric, designed or validated by domain experts, to
specify task requirements and guide output evaluation. Furthermore, we propose
CLEAR, an evaluation framework that supports accurate evaluation of long-form
model outputs in our benchmark. To achieve fine-grained, expert-aligned
evaluation, CLEAR derives checklists from both model outputs and references by
extracting information corresponding to items in the task-specific rubric.
Checklist items for model outputs are then compared with corresponding items
for reference outputs to assess their correctness, enabling grounded
evaluation. We benchmark 11 large language models (LLMs) and analyze components
in CLEAR, showing that (1) existing LLMs, with the top performer achieving only
a 26.8% F1 score, require significant improvement for expert-level tasks; (2)
models can generate content corresponding to the required aspects, though often
not accurately; and (3) accurate checklist extraction and comparison in CLEAR
can be achieved by open-weight models for more scalable and low-cost usage.