MOOSE-Chem2: 階層的探索による詳細な科学的仮説発見におけるLLMの限界の探求
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
May 25, 2025
著者: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
要旨
大規模言語モデル(LLM)は科学的仮説生成の自動化において有望な成果を示しているが、既存のアプローチでは主に粗粒度の仮説が生成され、重要な方法論的・実験的詳細が欠如している。本論文では、細粒度の科学的仮説発見という新たなタスクを導入し、正式に定義する。このタスクは、粗い初期研究方向から詳細で実験的に実行可能な仮説を生成することを含む。我々はこれを組み合わせ最適化問題として定式化し、LLMがこの問題を解決する能力の上限を最大限に活用した場合に探求する。具体的には、以下の4つの基礎的な問いを探る:(1) LLMの内部ヒューリスティックを最大限に活用し、LLM自身が生成し得る全ての仮説の中から、自身の内部スコアリングに基づいて最も有望と判断する細粒度仮説を定式化する方法、これにより仮説空間上の潜在的な報酬地形を定義する;(2) そのようなLLMが判断した優れた仮説は、真の仮説との整合性がより強いか;(3) 類似した能力を持つ多様なLLMのアンサンブルを使用して報酬地形を形成することが、最も強力なLLMの繰り返しインスタンスで定義するよりも優れた結果をもたらすか;(4) 同一のLLMのアンサンブルは、単一のLLMよりも信頼性の高い報酬地形を提供するか。これらの問いに答えるため、我々は階層的探索手法を提案する。この手法は、仮説に詳細を段階的に提案し統合することで、一般的な概念から特定の実験設定へと進む。この階層的プロセスにより、報酬地形が平滑化され、より効果的な最適化が可能となることを示す。最近の化学文献から専門家が注釈を付けた細粒度仮説の新たなベンチマークでの実証評価により、我々の手法が強力なベースラインを一貫して上回ることを示す。
English
Large language models (LLMs) have shown promise in automating scientific
hypothesis generation, yet existing approaches primarily yield coarse-grained
hypotheses lacking critical methodological and experimental details. We
introduce and formally define the novel task of fine-grained scientific
hypothesis discovery, which entails generating detailed, experimentally
actionable hypotheses from coarse initial research directions. We frame this as
a combinatorial optimization problem and investigate the upper limits of LLMs'
capacity to solve it when maximally leveraged. Specifically, we explore four
foundational questions: (1) how to best harness an LLM's internal heuristics to
formulate the fine-grained hypothesis it itself would judge as the most
promising among all the possible hypotheses it might generate, based on its own
internal scoring-thus defining a latent reward landscape over the hypothesis
space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment
with ground-truth hypotheses; (3) whether shaping the reward landscape using an
ensemble of diverse LLMs of similar capacity yields better outcomes than
defining it with repeated instances of the strongest LLM among them; and (4)
whether an ensemble of identical LLMs provides a more reliable reward landscape
than a single LLM. To address these questions, we propose a hierarchical search
method that incrementally proposes and integrates details into the hypothesis,
progressing from general concepts to specific experimental configurations. We
show that this hierarchical process smooths the reward landscape and enables
more effective optimization. Empirical evaluations on a new benchmark of
expert-annotated fine-grained hypotheses from recent chemistry literature show
that our method consistently outperforms strong baselines.Summary
AI-Generated Summary