ChatPaper.aiChatPaper

AbGen: 과학적 연구를 위한 절제 연구 설계 및 평가에서의 대규모 언어 모델 평가

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

July 17, 2025
저자: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan
cs.AI

초록

우리는 과학 연구를 위한 제거 실험(ablation study) 설계에서 대형 언어 모델(LLM)의 능력을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 AbGen을 소개합니다. AbGen은 807편의 자연어 처리(NLP) 논문에서 추출한 1,500개의 전문가 주석이 달린 예제로 구성되어 있습니다. 이 벤치마크에서 LLM은 주어진 연구 맥락을 바탕으로 특정 모듈 또는 프로세스에 대한 상세한 제거 실험 설계를 생성하는 과제를 수행합니다. DeepSeek-R1-0528 및 o4-mini와 같은 주요 LLM을 평가한 결과, 이러한 모델과 인간 전문가 간에 제거 실험 설계의 중요성, 충실성 및 타당성 측면에서 상당한 성능 격차가 있음을 확인했습니다. 또한, 현재의 자동 평가 방법이 우리의 과제에 대해 신뢰할 수 없으며, 인간 평가와 비교했을 때 상당한 불일치를 보인다는 점을 입증했습니다. 이를 더 깊이 연구하기 위해, 우리는 자주 사용되는 자동 평가 시스템의 신뢰성을 측정하기 위한 메타 평가 벤치마크인 AbGen-Eval을 개발했습니다. 우리는 AbGen-Eval에서 다양한 LLM-as-Judge 시스템을 조사하며, 복잡한 과학적 과제를 위한 더 효과적이고 신뢰할 수 있는 LLM 기반 평가 시스템 개발을 위한 미래 연구에 대한 통찰을 제공합니다.
English
We introduce AbGen, the first benchmark designed to evaluate the capabilities of LLMs in designing ablation studies for scientific research. AbGen consists of 1,500 expert-annotated examples derived from 807 NLP papers. In this benchmark, LLMs are tasked with generating detailed ablation study designs for a specified module or process based on the given research context. Our evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a significant performance gap between these models and human experts in terms of the importance, faithfulness, and soundness of the ablation study designs. Moreover, we demonstrate that current automated evaluation methods are not reliable for our task, as they show a significant discrepancy when compared to human assessment. To better investigate this, we develop AbGen-Eval, a meta-evaluation benchmark designed to assess the reliability of commonly used automated evaluation systems in measuring LLM performance on our task. We investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for future research on developing more effective and reliable LLM-based evaluation systems for complex scientific tasks.
PDF91July 18, 2025