Otimização Bayesiana para a Descoberta Científica Eficiente e Fundamentada: Um Tutorial

Resumo

A descoberta científica tradicional baseia-se num ciclo iterativo de hipótese-experimentação-refinamento que impulsionou o progresso durante séculos. Contudo, a sua implementação intuitiva e ad hoc frequentemente desperdiça recursos, produz designs ineficientes e omite insights críticos. Este tutorial apresenta a Otimização Bayesiana (OB), uma estrutura probabilística e fundamentada que formaliza e automatiza este ciclo científico central. A OB utiliza modelos substitutos (por exemplo, processos gaussianos) para modelar observações empíricas como hipóteses em evolução, e funções de aquisição para orientar a seleção de experiências, equilibrando a exploração do conhecimento conhecido e a exploração de domínios inexplorados, eliminando assim o trabalho de adivinhação e a tentativa e erro manual. Começamos por enquadrar a descoberta científica como um problema de otimização, depois desconstruímos os componentes centrais da OB, os fluxos de trabalho de ponta a ponta e a sua eficácia no mundo real através de estudos de caso em catálise, ciência dos materiais, síntese orgânica e descoberta de moléculas. Abordamos também extensões técnicas críticas para aplicações científicas, incluindo experimentação em lote, heteroscedasticidade, otimização contextual e integração humana no ciclo. Concebido para um público amplo, este tutorial estabelece uma ponte entre os avanços da IA em OB e as aplicações práticas nas ciências naturais, oferecendo conteúdo escalonado para capacitar investigadores interdisciplinares a projetar experiências mais eficientes e a acelerar a descoberta científica fundamentada.

English

Traditional scientific discovery relies on an iterative hypothesise-experiment-refine cycle that has driven progress for centuries, but its intuitive, ad-hoc implementation often wastes resources, yields inefficient designs, and misses critical insights. This tutorial presents Bayesian Optimisation (BO), a principled probability-driven framework that formalises and automates this core scientific cycle. BO uses surrogate models (e.g., Gaussian processes) to model empirical observations as evolving hypotheses, and acquisition functions to guide experiment selection, balancing exploitation of known knowledge and exploration of uncharted domains to eliminate guesswork and manual trial-and-error. We first frame scientific discovery as an optimisation problem, then unpack BO's core components, end-to-end workflows, and real-world efficacy via case studies in catalysis, materials science, organic synthesis, and molecule discovery. We also cover critical technical extensions for scientific applications, including batched experimentation, heteroscedasticity, contextual optimisation, and human-in-the-loop integration. Tailored for a broad audience, this tutorial bridges AI advances in BO with practical natural science applications, offering tiered content to empower cross-disciplinary researchers to design more efficient experiments and accelerate principled scientific discovery.

Otimização Bayesiana para a Descoberta Científica Eficiente e Fundamentada: Um Tutorial

Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

Resumo

Support