AbGen: Avaliação de Modelos de Linguagem de Grande Escala no Design e Avaliação de Estudos de Ablação para Pesquisa Científica
AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research
July 17, 2025
Autores: Yilun Zhao, Weiyuan Chen, Zhijian Xu, Manasi Patwardhan, Yixin Liu, Chengye Wang, Lovekesh Vig, Arman Cohan
cs.AI
Resumo
Apresentamos o AbGen, o primeiro benchmark projetado para avaliar as capacidades de LLMs (Large Language Models) na elaboração de estudos de ablação para pesquisas científicas. O AbGen consiste em 1.500 exemplos anotados por especialistas, derivados de 807 artigos de PLN (Processamento de Linguagem Natural). Neste benchmark, os LLMs têm a tarefa de gerar projetos detalhados de estudos de ablação para um módulo ou processo específico, com base no contexto de pesquisa fornecido. Nossa avaliação de LLMs líderes, como o DeepSeek-R1-0528 e o o4-mini, revela uma lacuna significativa de desempenho entre esses modelos e especialistas humanos em termos de importância, fidelidade e robustez dos projetos de estudos de ablação. Além disso, demonstramos que os métodos atuais de avaliação automatizada não são confiáveis para nossa tarefa, pois apresentam uma discrepância significativa quando comparados à avaliação humana. Para investigar melhor isso, desenvolvemos o AbGen-Eval, um benchmark de meta-avaliação projetado para avaliar a confiabilidade dos sistemas de avaliação automatizada comumente usados na medição do desempenho de LLMs em nossa tarefa. Investigamos vários sistemas LLM-as-Judge no AbGen-Eval, fornecendo insights para pesquisas futuras sobre o desenvolvimento de sistemas de avaliação baseados em LLM mais eficazes e confiáveis para tarefas científicas complexas.
English
We introduce AbGen, the first benchmark designed to evaluate the capabilities
of LLMs in designing ablation studies for scientific research. AbGen consists
of 1,500 expert-annotated examples derived from 807 NLP papers. In this
benchmark, LLMs are tasked with generating detailed ablation study designs for
a specified module or process based on the given research context. Our
evaluation of leading LLMs, such as DeepSeek-R1-0528 and o4-mini, highlights a
significant performance gap between these models and human experts in terms of
the importance, faithfulness, and soundness of the ablation study designs.
Moreover, we demonstrate that current automated evaluation methods are not
reliable for our task, as they show a significant discrepancy when compared to
human assessment. To better investigate this, we develop AbGen-Eval, a
meta-evaluation benchmark designed to assess the reliability of commonly used
automated evaluation systems in measuring LLM performance on our task. We
investigate various LLM-as-Judge systems on AbGen-Eval, providing insights for
future research on developing more effective and reliable LLM-based evaluation
systems for complex scientific tasks.