Découverte scientifique efficace et rigoureuse par optimisation bayésienne : un tutoriel

Résumé

La découverte scientifique traditionnelle repose sur un cycle itératif hypothèse-expérience-affinement qui a guidé le progrès pendant des siècles, mais sa mise en œuvre intuitive et ad hoc gaspille souvent les ressources, produit des conceptions inefficaces et manque des insights critiques. Ce tutoriel présente l'Optimisation Bayésienne (OB), un cadre probabiliste fondamental qui formalise et automatise ce cycle scientifique central. L'OB utilise des modèles de substitution (par exemple, des processus gaussiens) pour modéliser les observations empiriques comme des hypothèses évolutives, et des fonctions d'acquisition pour guider la sélection des expériences, en équilibrant l'exploitation des connaissances acquises et l'exploration de domaines inconnus pour éliminer les conjectures et les essais-erreurs manuels. Nous définissons d'abord la découverte scientifique comme un problème d'optimisation, puis détaillons les composants centraux de l'OB, les workflows de bout en bout, et son efficacité pratique via des études de cas en catalyse, science des matériaux, synthèse organique et découverte de molécules. Nous couvrons également des extensions techniques cruciales pour les applications scientifiques, incluant l'expérimentation groupée, l'hétéroscédasticité, l'optimisation contextuelle et l'intégration humaine dans la boucle. Conçu pour un large public, ce tutoriel fait le lien entre les avancées de l'IA en OB et les applications pratiques en sciences naturelles, offrant un contenu à plusieurs niveaux pour permettre aux chercheurs interdisciplinaires de concevoir des expériences plus efficaces et d'accélérer une découverte scientifique fondée sur des principes.

English

Traditional scientific discovery relies on an iterative hypothesise-experiment-refine cycle that has driven progress for centuries, but its intuitive, ad-hoc implementation often wastes resources, yields inefficient designs, and misses critical insights. This tutorial presents Bayesian Optimisation (BO), a principled probability-driven framework that formalises and automates this core scientific cycle. BO uses surrogate models (e.g., Gaussian processes) to model empirical observations as evolving hypotheses, and acquisition functions to guide experiment selection, balancing exploitation of known knowledge and exploration of uncharted domains to eliminate guesswork and manual trial-and-error. We first frame scientific discovery as an optimisation problem, then unpack BO's core components, end-to-end workflows, and real-world efficacy via case studies in catalysis, materials science, organic synthesis, and molecule discovery. We also cover critical technical extensions for scientific applications, including batched experimentation, heteroscedasticity, contextual optimisation, and human-in-the-loop integration. Tailored for a broad audience, this tutorial bridges AI advances in BO with practical natural science applications, offering tiered content to empower cross-disciplinary researchers to design more efficient experiments and accelerate principled scientific discovery.

Découverte scientifique efficace et rigoureuse par optimisation bayésienne : un tutoriel

Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

Résumé

Support