ChatPaper.aiChatPaper

MOOSE-Chem2: Het verkennen van de grenzen van LLM's in fijnmazige wetenschappelijke hypotheseontdekking via hiërarchisch zoeken

MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search

May 25, 2025
Auteurs: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben potentie getoond in het automatiseren van wetenschappelijke hypothesegeneratie, maar bestaande benaderingen leveren voornamelijk grofkorrelige hypothesen op die kritieke methodologische en experimentele details missen. We introduceren en definiëren formeel de nieuwe taak van fijnkorrelige wetenschappelijke hypotheseontdekking, die het genereren van gedetailleerde, experimenteel uitvoerbare hypothesen vanuit grove initiële onderzoeksrichtingen omvat. We formuleren dit als een combinatorisch optimalisatieprobleem en onderzoeken de bovengrenzen van de capaciteit van LLMs om dit op te lossen wanneer ze maximaal worden benut. Specifiek exploreren we vier fundamentele vragen: (1) hoe het beste gebruik te maken van de interne heuristieken van een LLM om de fijnkorrelige hypothese te formuleren die het zelf als de meest veelbelovende zou beoordelen onder alle mogelijke hypothesen die het zou kunnen genereren, gebaseerd op zijn eigen interne scoring—waarbij een latent beloningslandschap over de hypothese-ruimte wordt gedefinieerd; (2) of dergelijke door LLM-beoordeelde betere hypothesen een sterkere afstemming vertonen met grondwaarheid-hypothesen; (3) of het vormgeven van het beloningslandschap met een ensemble van diverse LLMs van vergelijkbare capaciteit betere resultaten oplevert dan het definiëren ervan met herhaalde instanties van de sterkste LLM onder hen; en (4) of een ensemble van identieke LLMs een betrouwbaarder beloningslandschap biedt dan een enkele LLM. Om deze vragen te beantwoorden, stellen we een hiërarchische zoekmethode voor die stapsgewijs details in de hypothese voorstelt en integreert, waarbij wordt voortgebouwd van algemene concepten naar specifieke experimentele configuraties. We tonen aan dat dit hiërarchische proces het beloningslandschap gladder maakt en effectievere optimalisatie mogelijk maakt. Empirische evaluaties op een nieuwe benchmark van expert-geannoteerde fijnkorrelige hypothesen uit recente chemieliteratuur laten zien dat onze methode consistent sterke basislijnen overtreft.
English
Large language models (LLMs) have shown promise in automating scientific hypothesis generation, yet existing approaches primarily yield coarse-grained hypotheses lacking critical methodological and experimental details. We introduce and formally define the novel task of fine-grained scientific hypothesis discovery, which entails generating detailed, experimentally actionable hypotheses from coarse initial research directions. We frame this as a combinatorial optimization problem and investigate the upper limits of LLMs' capacity to solve it when maximally leveraged. Specifically, we explore four foundational questions: (1) how to best harness an LLM's internal heuristics to formulate the fine-grained hypothesis it itself would judge as the most promising among all the possible hypotheses it might generate, based on its own internal scoring-thus defining a latent reward landscape over the hypothesis space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment with ground-truth hypotheses; (3) whether shaping the reward landscape using an ensemble of diverse LLMs of similar capacity yields better outcomes than defining it with repeated instances of the strongest LLM among them; and (4) whether an ensemble of identical LLMs provides a more reliable reward landscape than a single LLM. To address these questions, we propose a hierarchical search method that incrementally proposes and integrates details into the hypothesis, progressing from general concepts to specific experimental configurations. We show that this hierarchical process smooths the reward landscape and enables more effective optimization. Empirical evaluations on a new benchmark of expert-annotated fine-grained hypotheses from recent chemistry literature show that our method consistently outperforms strong baselines.
PDF242May 27, 2025