ChatPaper.aiChatPaper

MOOSE-Chem2: Explorando os Limites dos LLMs na Descoberta de Hipóteses Científicas de Alta Granularidade por meio de Busca Hierárquica

MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search

May 25, 2025
Autores: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado potencial na automação da geração de hipóteses científicas, mas as abordagens existentes produzem principalmente hipóteses de granularidade grossa, carentes de detalhes metodológicos e experimentais críticos. Introduzimos e definimos formalmente a nova tarefa de descoberta de hipóteses científicas de granularidade fina, que envolve a geração de hipóteses detalhadas e acionáveis experimentalmente a partir de direções de pesquisa iniciais de granularidade grossa. Enquadramos isso como um problema de otimização combinatória e investigamos os limites superiores da capacidade dos LLMs para resolvê-lo quando maximamente aproveitados. Especificamente, exploramos quatro questões fundamentais: (1) como melhor aproveitar as heurísticas internas de um LLM para formular a hipótese de granularidade fina que ele próprio julgaria como a mais promissora entre todas as hipóteses possíveis que poderia gerar, com base em sua própria pontuação interna—definindo assim uma paisagem de recompensa latente sobre o espaço de hipóteses; (2) se tais hipóteses julgadas como melhores pelo LLM exibem um alinhamento mais forte com hipóteses de verdade fundamental; (3) se moldar a paisagem de recompensa usando um conjunto diversificado de LLMs de capacidade similar produz resultados melhores do que defini-la com instâncias repetidas do LLM mais forte entre eles; e (4) se um conjunto de LLMs idênticos fornece uma paisagem de recompensa mais confiável do que um único LLM. Para abordar essas questões, propomos um método de busca hierárquica que propõe e integra incrementalmente detalhes na hipótese, progredindo de conceitos gerais para configurações experimentais específicas. Mostramos que esse processo hierárquico suaviza a paisagem de recompensa e permite uma otimização mais eficaz. Avaliações empíricas em um novo benchmark de hipóteses de granularidade fina anotadas por especialistas, extraídas da literatura recente de química, mostram que nosso método supera consistentemente baselines fortes.
English
Large language models (LLMs) have shown promise in automating scientific hypothesis generation, yet existing approaches primarily yield coarse-grained hypotheses lacking critical methodological and experimental details. We introduce and formally define the novel task of fine-grained scientific hypothesis discovery, which entails generating detailed, experimentally actionable hypotheses from coarse initial research directions. We frame this as a combinatorial optimization problem and investigate the upper limits of LLMs' capacity to solve it when maximally leveraged. Specifically, we explore four foundational questions: (1) how to best harness an LLM's internal heuristics to formulate the fine-grained hypothesis it itself would judge as the most promising among all the possible hypotheses it might generate, based on its own internal scoring-thus defining a latent reward landscape over the hypothesis space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment with ground-truth hypotheses; (3) whether shaping the reward landscape using an ensemble of diverse LLMs of similar capacity yields better outcomes than defining it with repeated instances of the strongest LLM among them; and (4) whether an ensemble of identical LLMs provides a more reliable reward landscape than a single LLM. To address these questions, we propose a hierarchical search method that incrementally proposes and integrates details into the hypothesis, progressing from general concepts to specific experimental configurations. We show that this hierarchical process smooths the reward landscape and enables more effective optimization. Empirical evaluations on a new benchmark of expert-annotated fine-grained hypotheses from recent chemistry literature show that our method consistently outperforms strong baselines.
PDF232December 16, 2025