Predicción del Progreso Científico mediante Inteligencia Artificial

Resumen

La inteligencia artificial (IA) está cada vez más integrada en el descubrimiento científico, pero aún no está claro si puede anticipar el progreso científico. Para estudiar esta cuestión, presentamos un marco de evaluación temporalmente fundamentado para predecir el avance científico bajo restricciones controladas de conocimiento. Introducimos CUSP (Progreso Científico Inédito Condicionado por Corte), un punto de referencia multidisciplinario y a nivel de eventos que evalúa la predicción científica en sistemas de IA mediante la evaluación de viabilidad, el razonamiento mecanicista, el diseño generativo de soluciones y la predicción temporal. En 4.760 eventos científicos, observamos limitaciones sistemáticas y dependientes del dominio en los modelos de frontera actuales. Si bien los modelos pueden identificar direcciones de investigación plausibles entre candidatos en competencia, no logran predecir de manera confiable si los avances científicos se materializarán y estiman sistemáticamente mal cuándo ocurrirán. El rendimiento es altamente heterogéneo entre dominios, siendo la predicción temporal del progreso en IA más predecible que los avances en biología, química y física. El rendimiento es mayoritariamente insensible a si los eventos ocurren antes o después del corte de entrenamiento, lo que sugiere que estas limitaciones no pueden explicarse únicamente por la exposición al conocimiento en los datos de entrenamiento. Bajo acceso controlado a la información, el conocimiento adicional anterior al corte mejora el rendimiento, pero no cierra la brecha con los entornos de información completa, brecha que se vuelve más pronunciada para los avances con altas citas. Los modelos también muestran una sobreconfianza sistemática y fuertes sesgos de respuesta, lo que indica una estimación de incertidumbre poco fiable. En conjunto, los sistemas de IA actuales resultan insuficientes como herramientas predictivas para el progreso científico. El acceso al conocimiento previo no se traduce en predicciones fiables, y el rendimiento se beneficia más de la información posterior al evento que de la predicción prospectiva.

English

Artificial intelligence (AI) is increasingly embedded in scientific discovery, yet whether it can anticipate scientific progress remains unclear. To study this question, we introduce a temporally grounded evaluation framework for forecasting scientific progress under controlled knowledge constraints. We present CUSP (Cutoff-conditioned Unseen Scientific Progress), a multi-disciplinary and event-level benchmark that evaluates scientific forecasting in AI systems through feasibility assessment, mechanistic reasoning, generative solution design, and temporal prediction. Across 4,760 scientific events, we observe systematic and domain-dependent limitations in current frontier models. While models can identify plausible research directions from competing candidates, they fail to reliably predict whether scientific advances will be realized and systematically misestimate when they will occur. Performance is highly heterogeneous across domains, with the timing of AI progress more predictable than advances in biology, chemistry, and physics. Performance is largely insensitive to whether events occur before or after the training cutoff, suggesting these limitations cannot be explained solely by knowledge exposure in training data. Under controlled information access, additional pre-cutoff knowledge improves performance but does not close the gap to full-information settings, which becomes more pronounced for high-citation advances. Models also exhibit systematic overconfidence and strong response biases, indicating unreliable uncertainty estimation. Taken together, current AI systems fall short as predictive tools for scientific progress. Access to prior knowledge does not translate into reliable forecasting, and performance benefits more from post-event information than from forward-looking prediction.