MOOSE-Chem2: Esplorazione dei Limiti degli LLM nella Scoperta di Ipotesi Scientifiche Granulari tramite Ricerca Gerarchica
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
May 25, 2025
Autori: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato potenzialità nell'automatizzare la generazione di ipotesi scientifiche, tuttavia gli approcci esistenti producono principalmente ipotesi a grana grossa, prive di dettagli metodologici e sperimentali critici. Introduciamo e definiamo formalmente il nuovo compito della scoperta di ipotesi scientifiche a grana fine, che consiste nel generare ipotesi dettagliate e sperimentalmente attuabili a partire da direzioni di ricerca iniziali approssimative. Inquadriamo questo problema come un'ottimizzazione combinatoria e investigiamo i limiti superiori della capacità degli LLM di risolverlo quando sfruttati al massimo. In particolare, esploriamo quattro questioni fondamentali: (1) come sfruttare al meglio le euristiche interne di un LLM per formulare l'ipotesi a grana fine che esso stesso giudicherebbe come la più promettente tra tutte le possibili ipotesi che potrebbe generare, basandosi sul proprio punteggio interno - definendo così un paesaggio di ricompensa latente sullo spazio delle ipotesi; (2) se tali ipotesi giudicate migliori dall'LLM mostrano un allineamento più forte con ipotesi di verità di base; (3) se modellare il paesaggio di ricompensa utilizzando un insieme di LLM diversi ma di capacità simile produca risultati migliori rispetto a definirlo con istanze ripetute del più forte tra di essi; e (4) se un insieme di LLM identici fornisca un paesaggio di ricompensa più affidabile rispetto a un singolo LLM. Per affrontare queste questioni, proponiamo un metodo di ricerca gerarchica che propone e integra progressivamente dettagli nell'ipotesi, passando da concetti generali a configurazioni sperimentali specifiche. Mostriamo che questo processo gerarchico appiana il paesaggio di ricompensa e consente un'ottimizzazione più efficace. Valutazioni empiriche su un nuovo benchmark di ipotesi a grana fine annotate da esperti, tratte dalla recente letteratura chimica, dimostrano che il nostro metodo supera costantemente i baseline più robusti.
English
Large language models (LLMs) have shown promise in automating scientific
hypothesis generation, yet existing approaches primarily yield coarse-grained
hypotheses lacking critical methodological and experimental details. We
introduce and formally define the novel task of fine-grained scientific
hypothesis discovery, which entails generating detailed, experimentally
actionable hypotheses from coarse initial research directions. We frame this as
a combinatorial optimization problem and investigate the upper limits of LLMs'
capacity to solve it when maximally leveraged. Specifically, we explore four
foundational questions: (1) how to best harness an LLM's internal heuristics to
formulate the fine-grained hypothesis it itself would judge as the most
promising among all the possible hypotheses it might generate, based on its own
internal scoring-thus defining a latent reward landscape over the hypothesis
space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment
with ground-truth hypotheses; (3) whether shaping the reward landscape using an
ensemble of diverse LLMs of similar capacity yields better outcomes than
defining it with repeated instances of the strongest LLM among them; and (4)
whether an ensemble of identical LLMs provides a more reliable reward landscape
than a single LLM. To address these questions, we propose a hierarchical search
method that incrementally proposes and integrates details into the hypothesis,
progressing from general concepts to specific experimental configurations. We
show that this hierarchical process smooths the reward landscape and enables
more effective optimization. Empirical evaluations on a new benchmark of
expert-annotated fine-grained hypotheses from recent chemistry literature show
that our method consistently outperforms strong baselines.