MOOSE-Chem2: Исследование границ возможностей крупных языковых моделей в детализированном научном открытии гипотез с использованием иерархического поиска
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
May 25, 2025
Авторы: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют потенциал в автоматизации генерации научных гипотез, однако существующие подходы в основном дают грубые гипотезы, лишенные критически важных методологических и экспериментальных деталей. Мы вводим и формально определяем новую задачу детализированного научного открытия гипотез, которая предполагает генерацию подробных, экспериментально применимых гипотез из грубых начальных исследовательских направлений. Мы формулируем это как задачу комбинаторной оптимизации и исследуем предельные возможности LLM в её решении при максимальном использовании. В частности, мы изучаем четыре фундаментальных вопроса: (1) как наилучшим образом использовать внутренние эвристики LLM для формулировки детализированной гипотезы, которую сама модель оценит как наиболее перспективную среди всех возможных гипотез, которые она может сгенерировать, основываясь на собственном внутреннем оценивании — тем самым определяя скрытый ландшафт вознаграждений в пространстве гипотез; (2) демонстрируют ли такие гипотезы, оцененные LLM как лучшие, более сильное соответствие с эталонными гипотезами; (3) приводит ли формирование ландшафта вознаграждений с использованием ансамбля разнообразных LLM схожей мощности к лучшим результатам, чем его определение с помощью повторяющихся экземпляров самой сильной LLM среди них; и (4) обеспечивает ли ансамбль идентичных LLM более надежный ландшафт вознаграждений, чем одна LLM. Для решения этих вопросов мы предлагаем иерархический метод поиска, который постепенно предлагает и интегрирует детали в гипотезу, переходя от общих концепций к конкретным экспериментальным конфигурациям. Мы показываем, что этот иерархический процесс сглаживает ландшафт вознаграждений и позволяет более эффективно проводить оптимизацию. Эмпирические оценки на новом эталоне экспертно аннотированных детализированных гипотез из недавней химической литературы показывают, что наш метод стабильно превосходит сильные базовые подходы.
English
Large language models (LLMs) have shown promise in automating scientific
hypothesis generation, yet existing approaches primarily yield coarse-grained
hypotheses lacking critical methodological and experimental details. We
introduce and formally define the novel task of fine-grained scientific
hypothesis discovery, which entails generating detailed, experimentally
actionable hypotheses from coarse initial research directions. We frame this as
a combinatorial optimization problem and investigate the upper limits of LLMs'
capacity to solve it when maximally leveraged. Specifically, we explore four
foundational questions: (1) how to best harness an LLM's internal heuristics to
formulate the fine-grained hypothesis it itself would judge as the most
promising among all the possible hypotheses it might generate, based on its own
internal scoring-thus defining a latent reward landscape over the hypothesis
space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment
with ground-truth hypotheses; (3) whether shaping the reward landscape using an
ensemble of diverse LLMs of similar capacity yields better outcomes than
defining it with repeated instances of the strongest LLM among them; and (4)
whether an ensemble of identical LLMs provides a more reliable reward landscape
than a single LLM. To address these questions, we propose a hierarchical search
method that incrementally proposes and integrates details into the hypothesis,
progressing from general concepts to specific experimental configurations. We
show that this hierarchical process smooths the reward landscape and enables
more effective optimization. Empirical evaluations on a new benchmark of
expert-annotated fine-grained hypotheses from recent chemistry literature show
that our method consistently outperforms strong baselines.