AbGen: Evaluatie van Grote Taalmodellen in het Ontwerp en de Evaluatie van Ablatiestudies voor Wetenschappelijk Onderzoek

Samenvatting

We introduceren AbGen, de eerste benchmark die is ontworpen om de mogelijkheden van LLM's te evalueren bij het ontwerpen van ablatiestudies voor wetenschappelijk onderzoek. AbGen bestaat uit 1.500 door experts geannoteerde voorbeelden afkomstig uit 807 NLP-artikelen. In deze benchmark krijgen LLM's de taak om gedetailleerde ontwerpen voor ablatiestudies te genereren voor een gespecificeerde module of procedure, gebaseerd op de gegeven onderzoekscontext. Onze evaluatie van toonaangevende LLM's, zoals DeepSeek-R1-0528 en o4-mini, laat een aanzienlijk prestatieverschil zien tussen deze modellen en menselijke experts wat betreft het belang, de trouwheid en de degelijkheid van de ontworpen ablatiestudies. Bovendien tonen we aan dat huidige geautomatiseerde evaluatiemethoden niet betrouwbaar zijn voor onze taak, omdat ze een significante discrepantie vertonen in vergelijking met menselijke beoordelingen. Om dit beter te onderzoeken, ontwikkelen we AbGen-Eval, een meta-evaluatiebenchmark die is ontworpen om de betrouwbaarheid van veelgebruikte geautomatiseerde evaluatiesystemen te beoordelen bij het meten van de prestaties van LLM's voor onze taak. We onderzoeken verschillende LLM-as-Judge-systemen op AbGen-Eval, wat inzichten biedt voor toekomstig onderzoek naar het ontwikkelen van effectievere en betrouwbaardere LLM-gebaseerde evaluatiesystemen voor complexe wetenschappelijke taken.

English

We introduce AbGen, the first benchmark designed to evaluate the capabilities of LLMs in designing ablation studies for scientific research. AbGen consists of 1,500 expert-annotated examples derived from 807 NLP papers. In this benchmark, LLMs are tasked with generating detailed ablation study designs for a specified module or process based on the given research context. Our evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a significant performance gap between these models and human experts in terms of the importance, faithfulness, and soundness of the ablation study designs. Moreover, we demonstrate that current automated evaluation methods are not reliable for our task, as they show a significant discrepancy when compared to human assessment. To better investigate this, we develop AbGen-Eval, a meta-evaluation benchmark designed to assess the reliability of commonly used automated evaluation systems in measuring LLM performance on our task. We investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for future research on developing more effective and reliable LLM-based evaluation systems for complex scientific tasks.

AbGen: Evaluatie van Grote Taalmodellen in het Ontwerp en de Evaluatie van Ablatiestudies voor Wetenschappelijk Onderzoek

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Samenvatting

Support