Zur vielfältigen wissenschaftlichen Hypothesensuche mit großen Sprachmodellen

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend zur Beschleunigung wissenschaftlicher Entdeckungen eingesetzt, zuletzt bei anspruchsvollen Aufgaben wie der Generierung valider wissenschaftlicher Hypothesen. In vielen Entdeckungsszenarien besteht das Ziel jedoch nicht darin, eine einzelne beste Hypothese zu identifizieren, da die Validierung verrauscht und teuer sein kann und Wissenschaftler von einem Satz hochwertiger Alternativhypothesen profitieren, die gegen nachgelagerte Unsicherheiten bei den besten Lösungen absichern. Dennoch neigen häufig verwendete evolutionäre Suchrezepte dazu, in der Hypothesengenerierung Optimierung über Exploration zu priorisieren, und der resultierende Selektionsdruck während des Suchprozesses führt zu einem Diversitätskollaps. Motiviert durch diese Einschränkungen formulieren wir die Hypothesensuche als ein Stichprobenproblem, bei dem das Ziel darin besteht, unter einem festen Validierungsbudget effizient vielfältige, qualitativ hochwertige Hypothesen zu erzeugen. Aufbauend auf dieser Perspektive schlagen wir \ours vor, ein evolutionäres Framework, das vom klassischen Parallel-Tempering-Algorithmus inspiriert ist, Hypothesen auf mehreren Temperaturniveaus durchsucht und einen prinzipienbasierten Informationsaustausch zwischen den Temperaturen ermöglicht, um die Exploration zu verbessern, ohne die Konvergenz zu stören. In Bereichen wie der Molekularentdeckung, der Gleichungsentdeckung und der Algorithmenentdeckung verbessert unser Ansatz durchgängig sowohl die Hypothesenqualität als auch die Diversität bei gleichem Validierungsbudget und erzeugt Kandidaten, die auch bei aufwändigeren nachgelagerten computergestützten Validierungen robust bleiben.

English

Large language models (LLMs) are on the rise for accelerating scientific discovery, most recently in advanced tasks such as generating valid scientific hypotheses. Yet in many discovery settings, the goal is not to identify a single best hypothesis since validation can be noisy and expensive, and scientists benefit from a set of high-quality alternative hypotheses that hedge against downstream uncertainty for the best solutions. Nevertheless, commonly used evolutionary search recipes tend to prioritize optimization over exploration in hypothesis generation, and the resulting selection pressure during the search process leads to diversity collapse. Motivated by these limitations, we formulate hypothesis search as a sampling problem, where the objective is to efficiently produce diverse, high-quality hypotheses under a fixed validation budget. Building on this perspective, we propose \ours, an evolutionary framework inspired by the classical parallel tempering algorithm that searches hypotheses at multiple temperature levels and enables principled information exchange across temperatures to improve exploration without disrupting convergence. Across domains including molecular discovery, equation discovery, and algorithm discovery, our approach consistently improves both hypothesis quality and diversity under the same validation budget, and produces candidates that remain robust under more expensive downstream computational validations.