Vers une recherche diversifiée d'hypothèses scientifiques avec les grands modèles de langage

Résumé

Les grands modèles de langage (LLM) connaissent un essor dans l'accélération de la découverte scientifique, notamment pour des tâches avancées telles que la génération d'hypothèses scientifiques valides. Cependant, dans de nombreux contextes de découverte, l'objectif n'est pas d'identifier une seule hypothèse optimale, car la validation peut être coûteuse et bruitée, et les scientifiques bénéficient d'un ensemble d'hypothèses de haute qualité offrant des alternatives qui se prémunissent contre l'incertitude en aval pour les meilleures solutions. Néanmoins, les méthodes de recherche évolutionnistes couramment utilisées tendent à privilégier l'optimisation au détriment de l'exploration lors de la génération d'hypothèses, et la pression de sélection qui en résulte pendant le processus de recherche conduit à un effondrement de la diversité. Motivés par ces limitations, nous formulons la recherche d'hypothèses comme un problème d'échantillonnage, dont l'objectif est de produire efficacement des hypothèses diverses et de haute qualité sous un budget de validation fixe. En nous appuyant sur cette perspective, nous proposons \ours, un cadre évolutionniste inspiré de l'algorithme classique de recuit parallèle qui explore les hypothèses à plusieurs niveaux de température et permet un échange d'informations structuré entre les températures pour améliorer l'exploration sans perturber la convergence. Dans des domaines tels que la découverte moléculaire, la découverte d'équations et la découverte d'algorithmes, notre approche améliore systématiquement à la fois la qualité et la diversité des hypothèses sous le même budget de validation, et produit des candidats qui restent robustes lors de validations computationnelles plus coûteuses en aval.

English

Large language models (LLMs) are on the rise for accelerating scientific discovery, most recently in advanced tasks such as generating valid scientific hypotheses. Yet in many discovery settings, the goal is not to identify a single best hypothesis since validation can be noisy and expensive, and scientists benefit from a set of high-quality alternative hypotheses that hedge against downstream uncertainty for the best solutions. Nevertheless, commonly used evolutionary search recipes tend to prioritize optimization over exploration in hypothesis generation, and the resulting selection pressure during the search process leads to diversity collapse. Motivated by these limitations, we formulate hypothesis search as a sampling problem, where the objective is to efficiently produce diverse, high-quality hypotheses under a fixed validation budget. Building on this perspective, we propose \ours, an evolutionary framework inspired by the classical parallel tempering algorithm that searches hypotheses at multiple temperature levels and enables principled information exchange across temperatures to improve exploration without disrupting convergence. Across domains including molecular discovery, equation discovery, and algorithm discovery, our approach consistently improves both hypothesis quality and diversity under the same validation budget, and produces candidates that remain robust under more expensive downstream computational validations.