ResearchBench: 영감 기반 작업 분해를 통한 과학적 발견에서의 대형 언어 모델 벤치마킹
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
March 27, 2025
저자: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
초록
대규모 언어 모델(LLM)은 과학 연구 지원에 있어 잠재력을 보여왔지만, 전용 벤치마크의 부재로 인해 고품질 연구 가설 발견 능력은 아직 검증되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 과학적 발견의 거의 충분한 하위 과제 집합인 영감 검색, 가설 구성, 가설 순위 평가를 포함한 최초의 대규모 벤치마크를 소개합니다. 우리는 12개 학문 분야의 과학 논문에서 연구 질문, 배경 조사, 영감, 가설 등 핵심 구성 요소를 추출하는 자동화된 프레임워크를 개발했으며, 전문가 검증을 통해 그 정확성을 확인했습니다. 데이터 오염을 방지하기 위해 2024년에 발표된 논문에 초점을 맞추어 LLM 사전 학습 데이터와의 중복을 최소화했습니다. 우리의 평가 결과, LLM은 분포 외 작업인 영감 검색에서 우수한 성능을 보이며, 새로운 지식 연관성을 발견할 수 있는 능력을 시사했습니다. 이는 LLM을 "연구 가설 광산"으로 위치지어, 최소한의 인간 개입으로 대규모 혁신적 가설을 생성함으로써 자동화된 과학적 발견을 촉진할 수 있는 가능성을 보여줍니다.
English
Large language models (LLMs) have demonstrated potential in assisting
scientific research, yet their ability to discover high-quality research
hypotheses remains unexamined due to the lack of a dedicated benchmark. To
address this gap, we introduce the first large-scale benchmark for evaluating
LLMs with a near-sufficient set of sub-tasks of scientific discovery:
inspiration retrieval, hypothesis composition, and hypothesis ranking. We
develop an automated framework that extracts critical components - research
questions, background surveys, inspirations, and hypotheses - from scientific
papers across 12 disciplines, with expert validation confirming its accuracy.
To prevent data contamination, we focus exclusively on papers published in
2024, ensuring minimal overlap with LLM pretraining data. Our evaluation
reveals that LLMs perform well in retrieving inspirations, an
out-of-distribution task, suggesting their ability to surface novel knowledge
associations. This positions LLMs as "research hypothesis mines", capable of
facilitating automated scientific discovery by generating innovative hypotheses
at scale with minimal human intervention.Summary
AI-Generated Summary