SciPredict: I LLM Possono Prevedere i Risultati di Esperimenti Scientifici nelle Scienze Naturali?
SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?
April 12, 2026
Autori: Udari Madhushani Sehwag, Elaine Lau, Haniyeh Ehsani Oskouie, Shayan Shabihi, Erich Liang, Andrea Toledo, Guillermo Mangialardi, Sergio Fonrouge, Ed-Yeremai Hernandez Cardona, Paula Vergara, Utkarsh Tyagi, Chen Bo Calvin Zhang, Pavi Bhatter, Nicholas Johnson, Furong Huang, Ernesto Gabriel Hernandez Montoya, Bing Liu
cs.AI
Abstract
L'accelerazione della scoperta scientifica richiede l'identificazione di quali esperimenti possano produrre i risultati migliori prima di impegnare risorse in una costosa validazione fisica. Sebbene i benchmark esistenti valutino gli LLM sulle conoscenze e sul ragionamento scientifico, la loro capacità di prevedere i risultati sperimentali - un compito in cui l'IA potrebbe superare significativamente le capacità umane - rimane in gran parte inesplorata. Introduciamo SciPredict, un benchmark che comprende 405 task derivati da studi empirici recenti in 33 sottocampi specializzati di fisica, biologia e chimica. SciPredict affronta due questioni critiche: (a) gli LLM possono prevedere l'esito di esperimenti scientifici con sufficiente accuratezza? e (b) tali previsioni possono essere utilizzate in modo affidabile nel processo di ricerca scientifica? Le valutazioni rivelano limitazioni fondamentali su entrambi i fronti. Le accuratezze dei modelli sono del 14-26% e le prestazioni degli esperti umani sono di circa il 20%. Sebbene alcuni modelli all'avanguardia superino le prestazioni umane, l'accuratezza dei modelli è ancora ben al di sotto di quanto necessario per fornire una guida sperimentale affidabile. Anche all'interno delle prestazioni limitate, i modelli non riescono a distinguere le previsioni affidabili da quelle inaffidabili, raggiungendo solo circa il 20% di accuratezza indipendentemente dalla loro confidenza o dal giudizio sulla prevedibilità degli esiti senza sperimentazione fisica. Gli esperti umani, al contrario, dimostrano una forte calibrazione: la loro accuratezza aumenta da circa il 5% a circa l'80% man mano che ritengono gli esiti più prevedibili senza condurre l'esperimento. SciPredict stabilisce un quadro rigoroso dimostrando che prestazioni sovrumane nella scienza sperimentale richiedono non solo previsioni migliori, ma anche una migliore consapevolezza dell'affidabilità predittiva. Per garantire la riproducibilità, tutti i nostri dati e codice sono disponibili su https://github.com/scaleapi/scipredict.
English
Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is approx20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only approx20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from approx5% to approx80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict