SciPredict: Kunnen LLM's de uitkomsten van wetenschappelijke experimenten in de natuurwetenschappen voorspellen?
SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?
April 12, 2026
Auteurs: Udari Madhushani Sehwag, Elaine Lau, Haniyeh Ehsani Oskouie, Shayan Shabihi, Erich Liang, Andrea Toledo, Guillermo Mangialardi, Sergio Fonrouge, Ed-Yeremai Hernandez Cardona, Paula Vergara, Utkarsh Tyagi, Chen Bo Calvin Zhang, Pavi Bhatter, Nicholas Johnson, Furong Huang, Ernesto Gabriel Hernandez Montoya, Bing Liu
cs.AI
Samenvatting
Het versnellen van wetenschappelijke ontdekkingen vereist de identificatie van welke experimenten de beste resultaten zouden opleveren voordat middelen worden toegewezen aan kostbare fysieke validatie. Hoewel bestaande benchmarks LLM's evalueren op wetenschappelijke kennis en redeneervermogen, blijft hun vermogen om experimentele uitkomsten te voorspellen – een taak waarin AI menselijke capaciteiten aanzienlijk zou kunnen overtreffen – grotendeels onderbelicht. Wij introduceren SciPredict, een benchmark bestaande uit 405 taken afgeleid van recente empirische studies in 33 gespecialiseerde subdomeinen van natuurkunde, biologie en scheikunde. SciPredict behandelt twee kritieke vragen: (a) kunnen LLM's de uitkomst van wetenschappelijke experimenten met voldoende nauwkeurigheid voorspellen? en (b) kunnen dergelijke voorspellingen betrouwbaar worden gebruikt in het wetenschappelijk onderzoeksproces? Evaluaties onthullen fundamentele beperkingen op beide fronten. Modelnauwkeurigheden zijn 14-26% en de prestaties van menselijke experts bedragen ongeveer 20%. Hoewel sommige geavanceerde modellen de menselijke prestaties overtreffen, blijft de modelnauwkeurigheid ver onder het niveau dat betrouwbare experimentele begeleiding mogelijk zou maken. Zelfs binnen de beperkte prestaties slagen modellen er niet in betrouwbare voorspellingen te onderscheiden van onbetrouwbare, met een nauwkeurigheid van slechts ongeveer 20%, ongeacht hun vertrouwen of of zij uitkomsten als voorspelbaar beschouwen zonder fysiek experiment. Menselijke experts tonen daarentegen een sterke kalibratie: hun nauwkeurigheid neemt toe van ongeveer 5% tot ongeveer 80% naarmate zij uitkomsten als beter voorspelbaar beschouwen zonder het experiment uit te voeren. SciPredict stelt een rigoureus kader vast dat aantoont dat bovenmenselijke prestaties in de experimentele wetenschap niet alleen betere voorspellingen vereisen, maar ook een beter besef van de betrouwbaarheid van voorspellingen. Voor reproduceerbaarheid zijn al onze data en code beschikbaar op https://github.com/scaleapi/scipredict.
English
Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is approx20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only approx20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from approx5% to approx80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict