Naar het zoeken naar diverse wetenschappelijke hypothesen met grote taalmodellen

Samenvatting

Grote taalmodellen (Large Language Models, LLM's) worden steeds vaker ingezet om wetenschappelijke ontdekkingen te versnellen, met name bij geavanceerde taken zoals het genereren van valide wetenschappelijke hypothesen. In veel ontdekkingscontexten is het doel echter niet om één enkele beste hypothese te identificeren, omdat validatie kostbaar en ruisgevoelig kan zijn, en wetenschappers baat hebben bij een set hoogwaardige alternatieve hypothesen die bescherming bieden tegen stroomafwaartse onzekerheid over de beste oplossingen. Desondanks hebben veelgebruikte evolutionaire zoekrecepten de neiging om optimalisatie boven exploratie te prioriteren bij het genereren van hypothesen, en de resulterende selectiedruk tijdens het zoekproces leidt tot diversiteitsinstorting. Gemotiveerd door deze beperkingen formuleren we hypothesenonderzoek als een steekproefprobleem, waarbij het doel is om efficiënt diverse, hoogwaardige hypothesen te produceren binnen een vast validatiebudget. Voortbouwend op dit perspectief stellen we \ours voor, een evolutionair raamwerk geïnspireerd door het klassieke parallel-temperingalgoritme dat hypothesen doorzoekt op meerdere temperatuurniveaus en een principiële informatie-uitwisseling tussen temperaturen mogelijk maakt, wat exploratie verbetert zonder convergentie te verstoren. In domeinen zoals moleculaire ontdekking, vergelijkingenontdekking en algoritme-ontdekking verbetert onze aanpak consistent zowel de kwaliteit als diversiteit van hypothesen binnen hetzelfde validatiebudget, en levert kandidaten op die robuust blijven bij duurdere stroomafwaartse computationele validaties.

English

Large language models (LLMs) are on the rise for accelerating scientific discovery, most recently in advanced tasks such as generating valid scientific hypotheses. Yet in many discovery settings, the goal is not to identify a single best hypothesis since validation can be noisy and expensive, and scientists benefit from a set of high-quality alternative hypotheses that hedge against downstream uncertainty for the best solutions. Nevertheless, commonly used evolutionary search recipes tend to prioritize optimization over exploration in hypothesis generation, and the resulting selection pressure during the search process leads to diversity collapse. Motivated by these limitations, we formulate hypothesis search as a sampling problem, where the objective is to efficiently produce diverse, high-quality hypotheses under a fixed validation budget. Building on this perspective, we propose \ours, an evolutionary framework inspired by the classical parallel tempering algorithm that searches hypotheses at multiple temperature levels and enables principled information exchange across temperatures to improve exploration without disrupting convergence. Across domains including molecular discovery, equation discovery, and algorithm discovery, our approach consistently improves both hypothesis quality and diversity under the same validation budget, and produces candidates that remain robust under more expensive downstream computational validations.