ChatPaper.aiChatPaper

ResearchBench: Avaliação de Modelos de Linguagem de Grande Escala na Descoberta Científica por meio de Decomposição de Tarefas Baseada em Inspiração

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

March 27, 2025
Autores: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado potencial em auxiliar pesquisas científicas, mas sua capacidade de descobrir hipóteses de pesquisa de alta qualidade permanece inexplorada devido à falta de um benchmark dedicado. Para preencher essa lacuna, introduzimos o primeiro benchmark em larga escala para avaliar LLMs com um conjunto quase suficiente de sub-tarefas de descoberta científica: recuperação de inspirações, composição de hipóteses e classificação de hipóteses. Desenvolvemos um framework automatizado que extrai componentes críticos - questões de pesquisa, revisões de literatura, inspirações e hipóteses - de artigos científicos em 12 disciplinas, com validação de especialistas confirmando sua precisão. Para evitar contaminação de dados, focamos exclusivamente em artigos publicados em 2024, garantindo sobreposição mínima com os dados de pré-treinamento dos LLMs. Nossa avaliação revela que os LLMs têm bom desempenho na recuperação de inspirações, uma tarefa fora da distribuição, sugerindo sua capacidade de revelar associações de conhecimento novas. Isso posiciona os LLMs como "minas de hipóteses de pesquisa", capazes de facilitar a descoberta científica automatizada ao gerar hipóteses inovadoras em escala com intervenção humana mínima.
English
Large language models (LLMs) have demonstrated potential in assisting scientific research, yet their ability to discover high-quality research hypotheses remains unexamined due to the lack of a dedicated benchmark. To address this gap, we introduce the first large-scale benchmark for evaluating LLMs with a near-sufficient set of sub-tasks of scientific discovery: inspiration retrieval, hypothesis composition, and hypothesis ranking. We develop an automated framework that extracts critical components - research questions, background surveys, inspirations, and hypotheses - from scientific papers across 12 disciplines, with expert validation confirming its accuracy. To prevent data contamination, we focus exclusively on papers published in 2024, ensuring minimal overlap with LLM pretraining data. Our evaluation reveals that LLMs perform well in retrieving inspirations, an out-of-distribution task, suggesting their ability to surface novel knowledge associations. This positions LLMs as "research hypothesis mines", capable of facilitating automated scientific discovery by generating innovative hypotheses at scale with minimal human intervention.
PDF212March 28, 2025