AbGen: Evaluación de Modelos de Lenguaje a Gran Escala en el Diseño y Evaluación de Estudios de Ablación para la Investigación Científica
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
July 17, 2025
Autores: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan
cs.AI
Resumen
Presentamos AbGen, el primer punto de referencia diseñado para evaluar las capacidades de los LLM en el diseño de estudios de ablación para investigación científica. AbGen consta de 1,500 ejemplos anotados por expertos, derivados de 807 artículos de PLN. En este punto de referencia, los LLM tienen la tarea de generar diseños detallados de estudios de ablación para un módulo o proceso específico, basándose en el contexto de investigación proporcionado. Nuestra evaluación de LLM líderes, como DeepSeek-R1-0528 y o4-mini, destaca una brecha significativa en el rendimiento entre estos modelos y los expertos humanos en términos de la importancia, fidelidad y solidez de los diseños de estudios de ablación. Además, demostramos que los métodos actuales de evaluación automatizada no son confiables para nuestra tarea, ya que muestran una discrepancia significativa en comparación con la evaluación humana. Para investigar esto más a fondo, desarrollamos AbGen-Eval, un punto de referencia de meta-evaluación diseñado para evaluar la confiabilidad de los sistemas de evaluación automatizada comúnmente utilizados al medir el rendimiento de los LLM en nuestra tarea. Investigamos varios sistemas LLM-como-Juez en AbGen-Eval, proporcionando ideas para futuras investigaciones sobre el desarrollo de sistemas de evaluación basados en LLM más efectivos y confiables para tareas científicas complejas.
English
We introduce AbGen, the first benchmark designed to evaluate the capabilities
of LLMs in designing ablation studies for scientific research. AbGen consists
of 1,500 expert-annotated examples derived from 807 NLP papers. In this
benchmark, LLMs are tasked with generating detailed ablation study designs for
a specified module or process based on the given research context. Our
evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a
significant performance gap between these models and human experts in terms of
the importance, faithfulness, and soundness of the ablation study designs.
Moreover, we demonstrate that current automated evaluation methods are not
reliable for our task, as they show a significant discrepancy when compared to
human assessment. To better investigate this, we develop AbGen-Eval, a
meta-evaluation benchmark designed to assess the reliability of commonly used
automated evaluation systems in measuring LLM performance on our task. We
investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for
future research on developing more effective and reliable LLM-based evaluation
systems for complex scientific tasks.