Hacia una búsqueda diversa de hipótesis científicas con grandes modelos de lenguaje

Resumen

Los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) están en auge para acelerar el descubrimiento científico, más recientemente en tareas avanzadas como la generación de hipótesis científicas válidas. Sin embargo, en muchos contextos de descubrimiento, el objetivo no es identificar una única hipótesis óptima, ya que la validación puede ser ruidosa y costosa, y los científicos se benefician de un conjunto de hipótesis alternativas de alta calidad que mitigan la incertidumbre posterior sobre las mejores soluciones. No obstante, las recetas de búsqueda evolutiva comúnmente utilizadas tienden a priorizar la optimización sobre la exploración en la generación de hipótesis, y la presión selectiva resultante durante el proceso de búsqueda conduce al colapso de la diversidad. Motivados por estas limitaciones, formulamos la búsqueda de hipótesis como un problema de muestreo, donde el objetivo es producir de manera eficiente hipótesis diversas y de alta calidad bajo un presupuesto de validación fijo. Basándonos en esta perspectiva, proponemos \ours, un marco evolutivo inspirado en el algoritmo clásico de temple paralelo que busca hipótesis en múltiples niveles de temperatura y permite un intercambio de información fundamentado entre temperaturas para mejorar la exploración sin interrumpir la convergencia. En dominios que incluyen el descubrimiento molecular, el descubrimiento de ecuaciones y el descubrimiento de algoritmos, nuestro enfoque mejora consistentemente tanto la calidad como la diversidad de las hipótesis bajo el mismo presupuesto de validación, y produce candidatos que se mantienen robustos bajo validaciones computacionales posteriores más costosas.

English

Large language models (LLMs) are on the rise for accelerating scientific discovery, most recently in advanced tasks such as generating valid scientific hypotheses. Yet in many discovery settings, the goal is not to identify a single best hypothesis since validation can be noisy and expensive, and scientists benefit from a set of high-quality alternative hypotheses that hedge against downstream uncertainty for the best solutions. Nevertheless, commonly used evolutionary search recipes tend to prioritize optimization over exploration in hypothesis generation, and the resulting selection pressure during the search process leads to diversity collapse. Motivated by these limitations, we formulate hypothesis search as a sampling problem, where the objective is to efficiently produce diverse, high-quality hypotheses under a fixed validation budget. Building on this perspective, we propose \ours, an evolutionary framework inspired by the classical parallel tempering algorithm that searches hypotheses at multiple temperature levels and enables principled information exchange across temperatures to improve exploration without disrupting convergence. Across domains including molecular discovery, equation discovery, and algorithm discovery, our approach consistently improves both hypothesis quality and diversity under the same validation budget, and produces candidates that remain robust under more expensive downstream computational validations.