SciPredict: ¿Pueden los LLM Predecir los Resultados de Experimentos Científicos en Ciencias Naturales?

Resumen

La aceleración del descubrimiento científico requiere identificar qué experimentos producirían los mejores resultados antes de asignar recursos a una costosa validación física. Si bien los puntos de referencia existentes evalúan a los LLM en conocimiento y razonamiento científico, su capacidad para predecir resultados experimentales —una tarea en la que la IA podría superar significativamente las capacidades humanas— sigue estando en gran medida sin explorar. Presentamos SciPredict, un punto de referencia que comprende 405 tareas derivadas de estudios empíricos recientes en 33 subcampos especializados de física, biología y química. SciPredict aborda dos preguntas críticas: (a) ¿pueden los LLM predecir el resultado de experimentos científicos con suficiente precisión? y (b) ¿pueden usarse dichas predicciones de manera confiable en el proceso de investigación científica? Las evaluaciones revelan limitaciones fundamentales en ambos frentes. Las precisiones de los modelos son del 14-26% y el rendimiento de los expertos humanos es de aproximadamente el 20%. Aunque algunos modelos de vanguardia superan el rendimiento humano, la precisión del modelo aún está muy por debajo de lo que permitiría una guía experimental confiable. Incluso dentro del rendimiento limitado, los modelos no logran distinguir las predicciones confiables de las no confiables, alcanzando solo aproximadamente un 20% de precisión, independientemente de su confianza o de si juzgan los resultados como predecibles sin experimentación física. Los expertos humanos, por el contrario, demuestran una fuerte calibración: su precisión aumenta de aproximadamente 5% a aproximadamente 80% a medida que consideran que los resultados son más predecibles sin realizar el experimento. SciPredict establece un marco riguroso que demuestra que el rendimiento sobrehumano en la ciencia experimental requiere no solo mejores predicciones, sino también una mejor conciencia de la confiabilidad de las predicciones. Para garantizar la reproducibilidad, todos nuestros datos y código se proporcionan en https://github.com/scaleapi/scipredict.

English

Accelerating scientific discovery requires the identification of which experiments would yield the best outcomes before committing resources to costly physical validation. While existing benchmarks evaluate LLMs on scientific knowledge and reasoning, their ability to predict experimental outcomes - a task where AI could significantly exceed human capabilities - remains largely underexplored. We introduce SciPredict, a benchmark comprising 405 tasks derived from recent empirical studies in 33 specialized sub-fields of physics, biology, and chemistry. SciPredict addresses two critical questions: (a) can LLMs predict the outcome of scientific experiments with sufficient accuracy? and (b) can such predictions be reliably used in the scientific research process? Evaluations reveal fundamental limitations on both fronts. Model accuracies are 14-26% and human expert performance is approx20%. Although some frontier models exceed human performance model accuracy is still far below what would enable reliable experimental guidance. Even within the limited performance, models fail to distinguish reliable predictions from unreliable ones, achieving only approx20% accuracy regardless of their confidence or whether they judge outcomes as predictable without physical experimentation. Human experts, in contrast, demonstrate strong calibration: their accuracy increases from approx5% to approx80% as they deem outcomes more predictable without conducting the experiment. SciPredict establishes a rigorous framework demonstrating that superhuman performance in experimental science requires not just better predictions, but better awareness of prediction reliability. For reproducibility all our data and code are provided at https://github.com/scaleapi/scipredict

SciPredict: ¿Pueden los LLM Predecir los Resultados de Experimentos Científicos en Ciencias Naturales?

SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

Resumen

Support