К поиску разнообразных научных гипотез с помощью больших языковых моделей

Аннотация

Большие языковые модели (LLM) набирают популярность для ускорения научных открытий, в последнее время — в таких сложных задачах, как генерация обоснованных научных гипотез. Однако во многих контекстах открытия цель заключается не в выявлении единственной наилучшей гипотезы, поскольку валидация может быть зашумленной и дорогостоящей, и ученые выигрывают от набора высококачественных альтернативных гипотез, которые обеспечивают защиту от неопределенности на последующих этапах поиска наилучших решений. Тем не менее, широко используемые рецепты эволюционного поиска, как правило, отдают приоритет оптимизации над исследованием при генерации гипотез, и возникающее в результате давление отбора в процессе поиска приводит к коллапсу разнообразия. Руководствуясь этими ограничениями, мы формулируем поиск гипотез как задачу выборки, цель которой — эффективно генерировать разнообразные, высококачественные гипотезы при фиксированном бюджете валидации. Основываясь на этой перспективе, мы предлагаем \ours — эволюционный фреймворк, вдохновленный классическим алгоритмом параллельного отжига, который ищет гипотезы на нескольких температурных уровнях и обеспечивает принципиальный обмен информацией между температурами для улучшения исследования без нарушения сходимости. В различных областях, включая открытие молекул, открытие уравнений и открытие алгоритмов, наш подход последовательно улучшает как качество, так и разнообразие гипотез при том же бюджете валидации, и создает кандидатов, остающихся устойчивыми при более дорогостоящих последующих вычислительных валидациях.

English

Large language models (LLMs) are on the rise for accelerating scientific discovery, most recently in advanced tasks such as generating valid scientific hypotheses. Yet in many discovery settings, the goal is not to identify a single best hypothesis since validation can be noisy and expensive, and scientists benefit from a set of high-quality alternative hypotheses that hedge against downstream uncertainty for the best solutions. Nevertheless, commonly used evolutionary search recipes tend to prioritize optimization over exploration in hypothesis generation, and the resulting selection pressure during the search process leads to diversity collapse. Motivated by these limitations, we formulate hypothesis search as a sampling problem, where the objective is to efficiently produce diverse, high-quality hypotheses under a fixed validation budget. Building on this perspective, we propose \ours, an evolutionary framework inspired by the classical parallel tempering algorithm that searches hypotheses at multiple temperature levels and enables principled information exchange across temperatures to improve exploration without disrupting convergence. Across domains including molecular discovery, equation discovery, and algorithm discovery, our approach consistently improves both hypothesis quality and diversity under the same validation budget, and produces candidates that remain robust under more expensive downstream computational validations.