Rumo à Busca Diversificada de Hipóteses Científicas com Grandes Modelos de Linguagem

Resumo

Os modelos de linguagem de grande escala (LLMs) estão em ascensão para acelerar a descoberta científica, mais recentemente em tarefas avançadas como a geração de hipóteses científicas válidas. No entanto, em muitos contextos de descoberta, o objetivo não é identificar uma única melhor hipótese, pois a validação pode ser ruidosa e cara, e os cientistas se beneficiam de um conjunto de hipóteses alternativas de alta qualidade que protegem contra incertezas posteriores para as melhores soluções. Apesar disso, receitas de busca evolucionária comumente utilizadas tendem a priorizar a otimização em detrimento da exploração na geração de hipóteses, e a pressão seletiva resultante durante o processo de busca leva ao colapso de diversidade. Motivados por essas limitações, formulamos a busca de hipóteses como um problema de amostragem, onde o objetivo é produzir eficientemente hipóteses diversas e de alta qualidade sob um orçamento fixo de validação. Com base nessa perspectiva, propomos \ours, uma estrutura evolucionária inspirada no clássico algoritmo de temperagem paralela que busca hipóteses em múltiplos níveis de temperatura e permite a troca de informações fundamentada entre temperaturas para melhorar a exploração sem interromper a convergência. Em diversos domínios, incluindo descoberta molecular, descoberta de equações e descoberta de algoritmos, nossa abordagem melhora consistentemente tanto a qualidade quanto a diversidade das hipóteses sob o mesmo orçamento de validação, e produz candidatos que permanecem robustos sob validações computacionais posteriores mais caras.

English

Large language models (LLMs) are on the rise for accelerating scientific discovery, most recently in advanced tasks such as generating valid scientific hypotheses. Yet in many discovery settings, the goal is not to identify a single best hypothesis since validation can be noisy and expensive, and scientists benefit from a set of high-quality alternative hypotheses that hedge against downstream uncertainty for the best solutions. Nevertheless, commonly used evolutionary search recipes tend to prioritize optimization over exploration in hypothesis generation, and the resulting selection pressure during the search process leads to diversity collapse. Motivated by these limitations, we formulate hypothesis search as a sampling problem, where the objective is to efficiently produce diverse, high-quality hypotheses under a fixed validation budget. Building on this perspective, we propose \ours, an evolutionary framework inspired by the classical parallel tempering algorithm that searches hypotheses at multiple temperature levels and enables principled information exchange across temperatures to improve exploration without disrupting convergence. Across domains including molecular discovery, equation discovery, and algorithm discovery, our approach consistently improves both hypothesis quality and diversity under the same validation budget, and produces candidates that remain robust under more expensive downstream computational validations.