SciPredict: Os LLMs Podem Prever os Resultados de Experimentos Científicos nas Ciências Naturais?

Resumo

A aceleração da descoberta científica requer a identificação de quais experimentos produziriam os melhores resultados antes de alocar recursos para uma validação física dispendiosa. Embora os benchmarks existentes avaliem os LLMs em conhecimento e raciocínio científico, a sua capacidade de prever resultados experimentais - uma tarefa na qual a IA poderia superar significativamente as capacidades humanas - permanece amplamente inexplorada. Apresentamos o SciPredict, um benchmark composto por 405 tarefas derivadas de estudos empíricos recentes em 33 subáreas especializadas da física, biologia e química. O SciPredict aborda duas questões críticas: (a) os LLMs podem prever o resultado de experiências científicas com precisão suficiente? e (b) tais previsões podem ser usadas de forma confiável no processo de investigação científica? As avaliações revelam limitações fundamentais em ambas as frentes. As precisões dos modelos são de 14-26% e o desempenho de especialistas humanos é de aproximadamente 20%. Embora alguns modelos de fronteira superem o desempenho humano, a precisão do modelo ainda está muito abaixo do que permitiria uma orientação experimental confiável. Mesmo dentro do desempenho limitado, os modelos não conseguem distinguir previsões confiáveis de não confiáveis, atingindo apenas aproximadamente 20% de precisão, independentemente da sua confiança ou de julgarem os resultados como previsíveis sem experimentação física. Especialistas humanos, em contraste, demonstram uma forte calibração: a sua precisão aumenta de aproximadamente 5% para aproximadamente 80% à medida que consideram os resultados mais previsíveis sem realizar a experiência. O SciPredict estabelece um quadro rigoroso demonstrando que um desempenho sobre-humano na ciência experimental requer não apenas melhores previsões, mas uma melhor consciência da confiabilidade da previsão. Para garantir a reprodutibilidade, todos os nossos dados e código são fornecidos em https://github.com/scaleapi/scipredict.

English

Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is approx20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only approx20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from approx5% to approx80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict

SciPredict: Os LLMs Podem Prever os Resultados de Experimentos Científicos nas Ciências Naturais?

SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

Resumo

Support