ChatPaper.aiChatPaper

ResearchBench : Évaluation des LLM dans la découverte scientifique via la décomposition de tâches basée sur l'inspiration

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

March 27, 2025
Auteurs: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont démontré un potentiel pour assister la recherche scientifique, mais leur capacité à découvrir des hypothèses de recherche de haute qualité reste inexplorée en raison de l'absence de benchmark dédié. Pour combler cette lacune, nous introduisons le premier benchmark à grande échelle pour évaluer les LLMs avec un ensemble quasi-complet de sous-tâches de découverte scientifique : la récupération d'inspiration, la composition d'hypothèses et le classement d'hypothèses. Nous développons un cadre automatisé qui extrait les composants critiques - questions de recherche, revues de littérature, inspirations et hypothèses - à partir d'articles scientifiques couvrant 12 disciplines, avec une validation experte confirmant sa précision. Pour éviter la contamination des données, nous nous concentrons exclusivement sur les articles publiés en 2024, garantissant un chevauchement minimal avec les données de pré-entraînement des LLMs. Notre évaluation révèle que les LLMs performent bien dans la récupération d'inspirations, une tâche hors distribution, suggérant leur capacité à faire émerger des associations de connaissances novatrices. Cela positionne les LLMs comme des "mines d'hypothèses de recherche", capables de faciliter la découverte scientifique automatisée en générant des hypothèses innovantes à grande échelle avec un minimum d'intervention humaine.
English
Large language models (LLMs) have demonstrated potential in assisting scientific research, yet their ability to discover high-quality research hypotheses remains unexamined due to the lack of a dedicated benchmark. To address this gap, we introduce the first large-scale benchmark for evaluating LLMs with a near-sufficient set of sub-tasks of scientific discovery: inspiration retrieval, hypothesis composition, and hypothesis ranking. We develop an automated framework that extracts critical components - research questions, background surveys, inspirations, and hypotheses - from scientific papers across 12 disciplines, with expert validation confirming its accuracy. To prevent data contamination, we focus exclusively on papers published in 2024, ensuring minimal overlap with LLM pretraining data. Our evaluation reveals that LLMs perform well in retrieving inspirations, an out-of-distribution task, suggesting their ability to surface novel knowledge associations. This positions LLMs as "research hypothesis mines", capable of facilitating automated scientific discovery by generating innovative hypotheses at scale with minimal human intervention.

Summary

AI-Generated Summary

PDF202March 28, 2025