AbGen: Valutazione dei Modelli Linguistici di Grande Scala nella Progettazione e Valutazione di Studi di Ablazione per la Ricerca Scientifica
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
July 17, 2025
Autori: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan
cs.AI
Abstract
Presentiamo AbGen, il primo benchmark progettato per valutare le capacità dei modelli linguistici di grandi dimensioni (LLM) nella progettazione di studi di ablazione per la ricerca scientifica. AbGen è composto da 1.500 esempi annotati da esperti, derivati da 807 articoli di NLP. In questo benchmark, agli LLM viene assegnato il compito di generare progetti dettagliati di studi di ablazione per un modulo o processo specifico, basandosi sul contesto di ricerca fornito. La nostra valutazione di LLM leader, come DeepSeek-R1-0528 e o4-mini, evidenzia un significativo divario di prestazioni tra questi modelli e gli esperti umani in termini di importanza, fedeltà e solidità dei progetti di studi di ablazione. Inoltre, dimostriamo che i metodi di valutazione automatizzati attuali non sono affidabili per il nostro compito, poiché mostrano una discrepanza significativa rispetto alla valutazione umana. Per indagare meglio questo aspetto, sviluppiamo AbGen-Eval, un benchmark di meta-valutazione progettato per valutare l'affidabilità dei sistemi di valutazione automatizzati comunemente utilizzati nel misurare le prestazioni degli LLM nel nostro compito. Esaminiamo vari sistemi LLM-as-Judge su AbGen-Eval, fornendo spunti per future ricerche sullo sviluppo di sistemi di valutazione basati su LLM più efficaci e affidabili per compiti scientifici complessi.
English
We introduce AbGen, the first benchmark designed to evaluate the capabilities
of LLMs in designing ablation studies for scientific research. AbGen consists
of 1,500 expert-annotated examples derived from 807 NLP papers. In this
benchmark, LLMs are tasked with generating detailed ablation study designs for
a specified module or process based on the given research context. Our
evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a
significant performance gap between these models and human experts in terms of
the importance, faithfulness, and soundness of the ablation study designs.
Moreover, we demonstrate that current automated evaluation methods are not
reliable for our task, as they show a significant discrepancy when compared to
human assessment. To better investigate this, we develop AbGen-Eval, a
meta-evaluation benchmark designed to assess the reliability of commonly used
automated evaluation systems in measuring LLM performance on our task. We
investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for
future research on developing more effective and reliable LLM-based evaluation
systems for complex scientific tasks.