MOOSE-Chem2: Erforschung der Grenzen von LLMs bei der feingranularen wissenschaftlichen Hypothesenentdeckung durch hierarchische Suche
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
May 25, 2025
Autoren: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben Potenzial bei der Automatisierung der wissenschaftlichen Hypothesengenerierung gezeigt, doch bestehende Ansätze liefern hauptsächlich grobkörnige Hypothesen, denen kritische methodische und experimentelle Details fehlen. Wir führen die neuartige Aufgabe der feinkörnigen wissenschaftlichen Hypothesenentdeckung ein und definieren sie formal. Diese umfasst die Generierung detaillierter, experimentell umsetzbarer Hypothesen aus groben initialen Forschungsrichtungen. Wir formulieren dies als kombinatorisches Optimierungsproblem und untersuchen die oberen Grenzen der Fähigkeit von LLMs, dieses Problem zu lösen, wenn sie maximal genutzt werden. Insbesondere untersuchen wir vier grundlegende Fragen: (1) wie man die internen Heuristiken eines LLMs am besten nutzen kann, um die feinkörnige Hypothese zu formulieren, die es selbst als die vielversprechendste unter allen möglichen Hypothesen, die es generieren könnte, bewerten würde – basierend auf seiner eigenen internen Bewertung – und damit eine latente Belohnungslandschaft über den Hypothesenraum definiert; (2) ob solche von LLMs als besser bewertete Hypothesen eine stärkere Übereinstimmung mit Ground-Truth-Hypothesen aufweisen; (3) ob die Gestaltung der Belohnungslandschaft mithilfe eines Ensembles verschiedener LLMs mit ähnlicher Kapazität bessere Ergebnisse liefert als die Definition mit wiederholten Instanzen des stärksten LLMs unter ihnen; und (4) ob ein Ensemble identischer LLMs eine zuverlässigere Belohnungslandschaft bietet als ein einzelnes LLM. Um diese Fragen zu beantworten, schlagen wir eine hierarchische Suchmethode vor, die schrittweise Details in die Hypothese einbringt und integriert, wobei sie von allgemeinen Konzepten zu spezifischen experimentellen Konfigurationen fortschreitet. Wir zeigen, dass dieser hierarchische Prozess die Belohnungslandschaft glättet und eine effektivere Optimierung ermöglicht. Empirische Auswertungen auf einem neuen Benchmark von Experten-annotierten feinkörnigen Hypothesen aus der aktuellen chemischen Literatur zeigen, dass unsere Methode durchweg starke Baselines übertrifft.
English
Large language models (LLMs) have shown promise in automating scientific
hypothesis generation, yet existing approaches primarily yield coarse-grained
hypotheses lacking critical methodological and experimental details. We
introduce and formally define the novel task of fine-grained scientific
hypothesis discovery, which entails generating detailed, experimentally
actionable hypotheses from coarse initial research directions. We frame this as
a combinatorial optimization problem and investigate the upper limits of LLMs'
capacity to solve it when maximally leveraged. Specifically, we explore four
foundational questions: (1) how to best harness an LLM's internal heuristics to
formulate the fine-grained hypothesis it itself would judge as the most
promising among all the possible hypotheses it might generate, based on its own
internal scoring-thus defining a latent reward landscape over the hypothesis
space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment
with ground-truth hypotheses; (3) whether shaping the reward landscape using an
ensemble of diverse LLMs of similar capacity yields better outcomes than
defining it with repeated instances of the strongest LLM among them; and (4)
whether an ensemble of identical LLMs provides a more reliable reward landscape
than a single LLM. To address these questions, we propose a hierarchical search
method that incrementally proposes and integrates details into the hypothesis,
progressing from general concepts to specific experimental configurations. We
show that this hierarchical process smooths the reward landscape and enables
more effective optimization. Empirical evaluations on a new benchmark of
expert-annotated fine-grained hypotheses from recent chemistry literature show
that our method consistently outperforms strong baselines.Summary
AI-Generated Summary