MOOSE-Chem2 : Exploration des limites des LLM dans la découverte d’hypothèses scientifiques à granularité fine via une recherche hiérarchique
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
May 25, 2025
Auteurs: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont montré un potentiel prometteur dans l'automatisation de la génération d'hypothèses scientifiques, mais les approches existantes produisent principalement des hypothèses grossières, dépourvues de détails méthodologiques et expérimentaux critiques. Nous introduisons et définissons formellement la nouvelle tâche de découverte d'hypothèses scientifiques à granularité fine, qui consiste à générer des hypothèses détaillées et actionnables expérimentalement à partir de directions de recherche initiales grossières. Nous formulons cela comme un problème d'optimisation combinatoire et étudions les limites supérieures de la capacité des LLMs à le résoudre lorsqu'ils sont exploités au maximum. Plus précisément, nous explorons quatre questions fondamentales : (1) comment exploiter au mieux les heuristiques internes d'un LLM pour formuler l'hypothèse à granularité fine qu'il jugerait lui-même comme la plus prometteuse parmi toutes les hypothèses qu'il pourrait générer, en se basant sur son propre système de notation interne—définissant ainsi un paysage de récompense latent sur l'espace des hypothèses ; (2) si de telles hypothèses jugées meilleures par le LLM présentent un alignement plus fort avec des hypothèses de référence ; (3) si la structuration du paysage de récompense à l'aide d'un ensemble de LLMs diversifiés de capacité similaire produit de meilleurs résultats que sa définition avec des instances répétées du LLM le plus performant parmi eux ; et (4) si un ensemble de LLMs identiques fournit un paysage de récompense plus fiable qu'un seul LLM. Pour répondre à ces questions, nous proposons une méthode de recherche hiérarchique qui propose et intègre progressivement des détails dans l'hypothèse, passant de concepts généraux à des configurations expérimentales spécifiques. Nous montrons que ce processus hiérarchique lisse le paysage de récompense et permet une optimisation plus efficace. Les évaluations empiriques sur un nouveau benchmark d'hypothèses à granularité fine annotées par des experts, issues de la littérature récente en chimie, montrent que notre méthode surpasse systématiquement des bases de référence solides.
English
Large language models (LLMs) have shown promise in automating scientific
hypothesis generation, yet existing approaches primarily yield coarse-grained
hypotheses lacking critical methodological and experimental details. We
introduce and formally define the novel task of fine-grained scientific
hypothesis discovery, which entails generating detailed, experimentally
actionable hypotheses from coarse initial research directions. We frame this as
a combinatorial optimization problem and investigate the upper limits of LLMs'
capacity to solve it when maximally leveraged. Specifically, we explore four
foundational questions: (1) how to best harness an LLM's internal heuristics to
formulate the fine-grained hypothesis it itself would judge as the most
promising among all the possible hypotheses it might generate, based on its own
internal scoring-thus defining a latent reward landscape over the hypothesis
space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment
with ground-truth hypotheses; (3) whether shaping the reward landscape using an
ensemble of diverse LLMs of similar capacity yields better outcomes than
defining it with repeated instances of the strongest LLM among them; and (4)
whether an ensemble of identical LLMs provides a more reliable reward landscape
than a single LLM. To address these questions, we propose a hierarchical search
method that incrementally proposes and integrates details into the hypothesis,
progressing from general concepts to specific experimental configurations. We
show that this hierarchical process smooths the reward landscape and enables
more effective optimization. Empirical evaluations on a new benchmark of
expert-annotated fine-grained hypotheses from recent chemistry literature show
that our method consistently outperforms strong baselines.Summary
AI-Generated Summary