ChatPaper.aiChatPaper

AbGen: Оценка больших языковых моделей в разработке и анализе дизайна абляционных исследований для научных исследований

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

July 17, 2025
Авторы: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan
cs.AI

Аннотация

Мы представляем AbGen — первый бенчмарк, разработанный для оценки способностей крупных языковых моделей (LLM) в проектировании экспериментов с исключением (ablation studies) для научных исследований. AbGen состоит из 1500 примеров, аннотированных экспертами и извлеченных из 807 статей по обработке естественного языка (NLP). В этом бенчмарке LLM ставят задачу генерировать детализированные планы экспериментов с исключением для указанного модуля или процесса на основе предоставленного исследовательского контекста. Наша оценка ведущих LLM, таких как DeepSeek-R1-0528 и o4-mini, выявила значительный разрыв в производительности между этими моделями и экспертами-людьми с точки зрения важности, достоверности и обоснованности предлагаемых планов экспериментов. Кроме того, мы показываем, что существующие автоматизированные методы оценки ненадежны для нашей задачи, так как демонстрируют значительные расхождения по сравнению с оценкой экспертов. Для более глубокого изучения этого вопроса мы разработали AbGen-Eval — мета-бенчмарк, предназначенный для оценки надежности широко используемых автоматизированных систем оценки при измерении производительности LLM в нашей задаче. Мы исследуем различные системы LLM-as-Judge на AbGen-Eval, предоставляя ценные инсайты для будущих исследований в области разработки более эффективных и надежных систем оценки на основе LLM для сложных научных задач.
English
We introduce AbGen, the first benchmark designed to evaluate the capabilities of LLMs in designing ablation studies for scientific research. AbGen consists of 1,500 expert-annotated examples derived from 807 NLP papers. In this benchmark, LLMs are tasked with generating detailed ablation study designs for a specified module or process based on the given research context. Our evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a significant performance gap between these models and human experts in terms of the importance, faithfulness, and soundness of the ablation study designs. Moreover, we demonstrate that current automated evaluation methods are not reliable for our task, as they show a significant discrepancy when compared to human assessment. To better investigate this, we develop AbGen-Eval, a meta-evaluation benchmark designed to assess the reliability of commonly used automated evaluation systems in measuring LLM performance on our task. We investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for future research on developing more effective and reliable LLM-based evaluation systems for complex scientific tasks.
PDF91July 18, 2025