SciPredict: Können LLMs die Ergebnisse wissenschaftlicher Experimente in den Naturwissenschaften vorhersagen?
SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?
April 12, 2026
Autoren: Udari Madhushani Sehwag, Elaine Lau, Haniyeh Ehsani Oskouie, Shayan Shabihi, Erich Liang, Andrea Toledo, Guillermo Mangialardi, Sergio Fonrouge, Ed-Yeremai Hernandez Cardona, Paula Vergara, Utkarsh Tyagi, Chen Bo Calvin Zhang, Pavi Bhatter, Nicholas Johnson, Furong Huang, Ernesto Gabriel Hernandez Montoya, Bing Liu
cs.AI
Zusammenfassung
Die Beschleunigung wissenschaftlicher Entdeckungen erfordert die Identifizierung der Experimente, die die besten Ergebnisse liefern würden, bevor Ressourcen für kostspielige physikalische Validierungen aufgewendet werden. Während bestehende Benchmarks LLMs anhand wissenschaftlichen Wissens und logischen Denkens bewerten, bleibt ihre Fähigkeit, experimentelle Ergebnisse vorherzusagen – eine Aufgabe, bei der KI menschliche Fähigkeiten erheblich übertreffen könnte – weitgehend unerforscht. Wir stellen SciPredict vor, einen Benchmark, der 405 Aufgaben umfasst, die aus aktuellen empirischen Studien in 33 spezialisierten Teilgebieten der Physik, Biologie und Chemie abgeleitet wurden. SciPredict behandelt zwei kritische Fragen: (a) Können LLMs den Ausgang wissenschaftlicher Experimente mit hinreichender Genauigkeit vorhersagen? und (b) Können solche Vorhersagen zuverlässig im wissenschaftlichen Forschungsprozess genutzt werden? Evaluationen zeigen grundlegende Limitationen in beiden Bereichen. Die Modellgenauigkeiten liegen bei 14–26 % und die menschliche Expertenleistung bei ca. 20 %. Obwohl einige Spitzenmodelle die menschliche Leistung übertreffen, liegt die Modellgenauigkeit immer noch weit unter dem Niveau, das eine zuverlässige experimentelle Leitfunktion ermöglichen würde. Selbst innerhalb der begrenzten Leistung können Modelle nicht zwischen zuverlässigen und unzuverlässigen Vorhersagen unterscheiden und erreichen nur eine Genauigkeit von ca. 20 %, unabhängig von ihrer eigenen Sicherheit oder ob sie Ergebnisse als ohne physikalisches Experiment vorhersagbar einstufen. Menschliche Experten zeigen dagegen eine starke Kalibrierung: Ihre Genauigkeit steigt von ca. 5 % auf ca. 80 %, je mehr sie Ergebnisse als ohne Experimentdurchführung vorhersagbar erachten. SciPredict etabliert einen rigorosen Rahmen, der zeigt, dass übermenschliche Leistung in der experimentellen Wissenschaft nicht nur bessere Vorhersagen, sondern auch ein besseres Bewusstsein für die Zuverlässigkeit von Vorhersagen erfordert. Zur Reproduzierbarkeit sind alle unsere Daten und Codes unter https://github.com/scaleapi/scipredict verfügbar.
English
Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is approx20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only approx20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from approx5% to approx80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict