ChatPaper.aiChatPaper

ResearchBench: インスピレーションに基づくタスク分解による科学的発見における大規模言語モデルのベンチマーキング

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

March 27, 2025
著者: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI

要旨

大規模言語モデル(LLM)は科学研究を支援する可能性を示しているものの、高品質な研究仮説を発見する能力は、専用のベンチマークが存在しないため未検証のままであった。このギャップを埋めるため、我々は科学的発見のほぼ十分なサブタスク(インスピレーション検索、仮説構成、仮説ランキング)を備えた、LLM評価のための初の大規模ベンチマークを導入する。12の学問分野にわたる科学論文から、研究課題、背景調査、インスピレーション、仮説といった重要な要素を抽出する自動化フレームワークを開発し、専門家による検証を通じてその精度を確認した。データ汚染を防ぐため、2024年に発表された論文に焦点を当て、LLMの事前学習データとの重複を最小限に抑えた。評価の結果、LLMは分布外タスクであるインスピレーション検索において良好なパフォーマンスを示し、新たな知識の関連性を浮かび上がらせる能力が示唆された。これにより、LLMは「研究仮説の鉱山」として位置づけられ、最小限の人的介入で革新的な仮説を大規模に生成することで、自動化された科学的発見を促進する可能性を秘めていることが明らかとなった。
English
Large language models (LLMs) have demonstrated potential in assisting scientific research, yet their ability to discover high-quality research hypotheses remains unexamined due to the lack of a dedicated benchmark. To address this gap, we introduce the first large-scale benchmark for evaluating LLMs with a near-sufficient set of sub-tasks of scientific discovery: inspiration retrieval, hypothesis composition, and hypothesis ranking. We develop an automated framework that extracts critical components - research questions, background surveys, inspirations, and hypotheses - from scientific papers across 12 disciplines, with expert validation confirming its accuracy. To prevent data contamination, we focus exclusively on papers published in 2024, ensuring minimal overlap with LLM pretraining data. Our evaluation reveals that LLMs perform well in retrieving inspirations, an out-of-distribution task, suggesting their ability to surface novel knowledge associations. This positions LLMs as "research hypothesis mines", capable of facilitating automated scientific discovery by generating innovative hypotheses at scale with minimal human intervention.

Summary

AI-Generated Summary

PDF202March 28, 2025