MOOSE-Chem2: Explorando los límites de los LLM en el descubrimiento de hipótesis científicas de grano fino mediante búsqueda jerárquica
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
May 25, 2025
Autores: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado potencial en la automatización de la generación de hipótesis científicas; sin embargo, los enfoques existentes producen principalmente hipótesis de grano grueso que carecen de detalles metodológicos y experimentales críticos. Introducimos y definimos formalmente la novedosa tarea de descubrimiento de hipótesis científicas de grano fino, que implica generar hipótesis detalladas y experimentalmente accionables a partir de direcciones de investigación iniciales de grano grueso. Enmarcamos esto como un problema de optimización combinatoria e investigamos los límites superiores de la capacidad de los LLMs para resolverlo cuando se aprovechan al máximo. Específicamente, exploramos cuatro preguntas fundamentales: (1) cómo aprovechar mejor las heurísticas internas de un LLM para formular la hipótesis de grano fino que el propio modelo juzgaría como la más prometedora entre todas las posibles hipótesis que podría generar, basándose en su propia puntuación interna, definiendo así un paisaje de recompensas latente sobre el espacio de hipótesis; (2) si tales hipótesis mejor evaluadas por el LLM muestran una mayor alineación con hipótesis de referencia; (3) si moldear el paisaje de recompensas utilizando un conjunto de LLMs diversos de capacidad similar produce mejores resultados que definirlo con instancias repetidas del LLM más fuerte entre ellos; y (4) si un conjunto de LLMs idénticos proporciona un paisaje de recompensas más confiable que un solo LLM. Para abordar estas preguntas, proponemos un método de búsqueda jerárquica que propone e integra incrementalmente detalles en la hipótesis, avanzando desde conceptos generales hasta configuraciones experimentales específicas. Demostramos que este proceso jerárquico suaviza el paisaje de recompensas y permite una optimización más efectiva. Las evaluaciones empíricas en un nuevo conjunto de datos de referencia de hipótesis de grano fino anotadas por expertos, extraídas de la literatura química reciente, muestran que nuestro método supera consistentemente a los baselines fuertes.
English
Large language models (LLMs) have shown promise in automating scientific
hypothesis generation, yet existing approaches primarily yield coarse-grained
hypotheses lacking critical methodological and experimental details. We
introduce and formally define the novel task of fine-grained scientific
hypothesis discovery, which entails generating detailed, experimentally
actionable hypotheses from coarse initial research directions. We frame this as
a combinatorial optimization problem and investigate the upper limits of LLMs'
capacity to solve it when maximally leveraged. Specifically, we explore four
foundational questions: (1) how to best harness an LLM's internal heuristics to
formulate the fine-grained hypothesis it itself would judge as the most
promising among all the possible hypotheses it might generate, based on its own
internal scoring-thus defining a latent reward landscape over the hypothesis
space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment
with ground-truth hypotheses; (3) whether shaping the reward landscape using an
ensemble of diverse LLMs of similar capacity yields better outcomes than
defining it with repeated instances of the strongest LLM among them; and (4)
whether an ensemble of identical LLMs provides a more reliable reward landscape
than a single LLM. To address these questions, we propose a hierarchical search
method that incrementally proposes and integrates details into the hypothesis,
progressing from general concepts to specific experimental configurations. We
show that this hierarchical process smooths the reward landscape and enables
more effective optimization. Empirical evaluations on a new benchmark of
expert-annotated fine-grained hypotheses from recent chemistry literature show
that our method consistently outperforms strong baselines.Summary
AI-Generated Summary