ResearchBench: Het benchmarken van LLM's in wetenschappelijke ontdekkingen via inspiratiegebaseerde taakdecompositie
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
March 27, 2025
Auteurs: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben potentieel getoond in het ondersteunen van wetenschappelijk onderzoek, maar hun vermogen om hoogwaardige onderzoekshypothesen te ontdekken is nog niet onderzocht vanwege het ontbreken van een specifieke benchmark. Om dit gat te dichten, introduceren we de eerste grootschalige benchmark voor het evalueren van LLMs met een bijna volledige set van subtaken voor wetenschappelijke ontdekking: inspiratie-retrieval, hypothese-samenstelling en hypothese-rangschikking. We ontwikkelen een geautomatiseerd framework dat kritieke componenten - onderzoeksvragen, achtergrondonderzoeken, inspiraties en hypothesen - extraheert uit wetenschappelijke artikelen in 12 disciplines, waarbij expertvalidatie de nauwkeurigheid bevestigt. Om gegevensbesmetting te voorkomen, richten we ons uitsluitend op artikelen die in 2024 zijn gepubliceerd, waardoor de overlap met de pretrainingsgegevens van LLMs minimaal blijft. Onze evaluatie toont aan dat LLMs goed presteren in het ophalen van inspiraties, een taak buiten de distributie, wat suggereert dat ze in staat zijn nieuwe kennisassociaties naar voren te brengen. Dit positioneert LLMs als "onderzoekshypothese-mijnen", die geautomatiseerde wetenschappelijke ontdekking kunnen faciliteren door op grote schaal innovatieve hypothesen te genereren met minimale menselijke interventie.
English
Large language models (LLMs) have demonstrated potential in assisting
scientific research, yet their ability to discover high-quality research
hypotheses remains unexamined due to the lack of a dedicated benchmark. To
address this gap, we introduce the first large-scale benchmark for evaluating
LLMs with a near-sufficient set of sub-tasks of scientific discovery:
inspiration retrieval, hypothesis composition, and hypothesis ranking. We
develop an automated framework that extracts critical components - research
questions, background surveys, inspirations, and hypotheses - from scientific
papers across 12 disciplines, with expert validation confirming its accuracy.
To prevent data contamination, we focus exclusively on papers published in
2024, ensuring minimal overlap with LLM pretraining data. Our evaluation
reveals that LLMs perform well in retrieving inspirations, an
out-of-distribution task, suggesting their ability to surface novel knowledge
associations. This positions LLMs as "research hypothesis mines", capable of
facilitating automated scientific discovery by generating innovative hypotheses
at scale with minimal human intervention.Summary
AI-Generated Summary