AbGen: Evaluatie van Grote Taalmodellen in het Ontwerp en de Evaluatie van Ablatiestudies voor Wetenschappelijk Onderzoek
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
July 17, 2025
Auteurs: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan
cs.AI
Samenvatting
We introduceren AbGen, de eerste benchmark die is ontworpen om de mogelijkheden van LLM's te evalueren bij het ontwerpen van ablatiestudies voor wetenschappelijk onderzoek. AbGen bestaat uit 1.500 door experts geannoteerde voorbeelden afkomstig uit 807 NLP-artikelen. In deze benchmark krijgen LLM's de taak om gedetailleerde ontwerpen voor ablatiestudies te genereren voor een gespecificeerde module of procedure, gebaseerd op de gegeven onderzoekscontext. Onze evaluatie van toonaangevende LLM's, zoals DeepSeek-R1-0528 en o4-mini, laat een aanzienlijk prestatieverschil zien tussen deze modellen en menselijke experts wat betreft het belang, de trouwheid en de degelijkheid van de ontworpen ablatiestudies. Bovendien tonen we aan dat huidige geautomatiseerde evaluatiemethoden niet betrouwbaar zijn voor onze taak, omdat ze een significante discrepantie vertonen in vergelijking met menselijke beoordelingen. Om dit beter te onderzoeken, ontwikkelen we AbGen-Eval, een meta-evaluatiebenchmark die is ontworpen om de betrouwbaarheid van veelgebruikte geautomatiseerde evaluatiesystemen te beoordelen bij het meten van de prestaties van LLM's voor onze taak. We onderzoeken verschillende LLM-as-Judge-systemen op AbGen-Eval, wat inzichten biedt voor toekomstig onderzoek naar het ontwikkelen van effectievere en betrouwbaardere LLM-gebaseerde evaluatiesystemen voor complexe wetenschappelijke taken.
English
We introduce AbGen, the first benchmark designed to evaluate the capabilities
of LLMs in designing ablation studies for scientific research. AbGen consists
of 1,500 expert-annotated examples derived from 807 NLP papers. In this
benchmark, LLMs are tasked with generating detailed ablation study designs for
a specified module or process based on the given research context. Our
evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a
significant performance gap between these models and human experts in terms of
the importance, faithfulness, and soundness of the ablation study designs.
Moreover, we demonstrate that current automated evaluation methods are not
reliable for our task, as they show a significant discrepancy when compared to
human assessment. To better investigate this, we develop AbGen-Eval, a
meta-evaluation benchmark designed to assess the reliability of commonly used
automated evaluation systems in measuring LLM performance on our task. We
investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for
future research on developing more effective and reliable LLM-based evaluation
systems for complex scientific tasks.