ChatPaper.aiChatPaper

SciPredict : Les LLM peuvent-ils prédire les résultats d'expériences scientifiques en sciences naturelles ?

SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

April 12, 2026
Auteurs: Udari Madhushani Sehwag, Elaine Lau, Haniyeh Ehsani Oskouie, Shayan Shabihi, Erich Liang, Andrea Toledo, Guillermo Mangialardi, Sergio Fonrouge, Ed-Yeremai Hernandez Cardona, Paula Vergara, Utkarsh Tyagi, Chen Bo Calvin Zhang, Pavi Bhatter, Nicholas Johnson, Furong Huang, Ernesto Gabriel Hernandez Montoya, Bing Liu
cs.AI

Résumé

L'accélération des découvertes scientifiques nécessite d'identifier au préalable les expériences qui produiront les meilleurs résultats avant d'engager des ressources dans une validation physique coûteuse. Si les benchmarks existants évaluent les LLM sur leurs connaissances et leur raisonnement scientifiques, leur capacité à prédire les résultats expérimentaux - une tâche où l'IA pourrait surpasser significativement les capacités humaines - reste largement inexplorée. Nous présentons SciPredict, un benchmark comprenant 405 tâches dérivées d'études empiriques récentes dans 33 sous-domaines spécialisés de la physique, de la biologie et de la chimie. SciPredict aborde deux questions critiques : (a) les LLM peuvent-ils prédire le résultat d'expériences scientifiques avec une précision suffisante ? et (b) ces prédictions peuvent-elles être utilisées de manière fiable dans le processus de recherche scientifique ? Les évaluations révèlent des limitations fondamentales sur ces deux aspects. Les précisions des modèles sont de 14 à 26 % et la performance des experts humains est d'environ 20 %. Bien que certains modèles de pointe surpassent les performances humaines, la précision des modèles reste bien en deçà de ce qui permettrait un guidage expérimental fiable. Même dans le cadre de performances limitées, les modèles échouent à distinguer les prédictions fiables des non fiables, n'atteignant qu'environ 20 % de précision, quels que soient leur niveau de confiance ou leur jugement sur la prédictibilité des résultats sans expérimentation physique. Les experts humains, en revanche, démontrent une forte calibration : leur précision augmente d'environ 5 % à environ 80 % à mesure qu'ils jugent les résultats plus prévisibles sans mener l'expérience. SciPredict établit un cadre rigoureux démontrant qu'une performance surhumaine en science expérimentale nécessite non seulement de meilleures prédictions, mais aussi une meilleure conscience de la fiabilité des prédictions. Pour la reproductibilité, toutes nos données et notre code sont disponibles à l'adresse https://github.com/scaleapi/scipredict.
English
Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is approx20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only approx20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from approx5% to approx80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict
PDF20April 15, 2026