Previsão do Progresso Científico com Inteligência Artificial

Resumo

A inteligência artificial (IA) está cada vez mais integrada à descoberta científica, mas ainda não está claro se ela pode antecipar o progresso científico. Para investigar essa questão, introduzimos uma estrutura de avaliação temporalmente fundamentada para prever o progresso científico sob restrições de conhecimento controladas. Apresentamos o CUSP (Progresso Científico Não Visto Condicionado ao Corte de Dados), um benchmark multidisciplinar e baseado em eventos que avalia a previsão científica em sistemas de IA por meio de avaliação de viabilidade, raciocínio mecanicista, design generativo de soluções e predição temporal. Em 4.760 eventos científicos, observamos limitações sistemáticas e dependentes do domínio nos modelos de fronteira atuais. Embora os modelos consigam identificar direções de pesquisa plausíveis entre candidatos concorrentes, eles falham em prever de forma confiável se os avanços científicos serão realizados e sistematicamente estimam incorretamente quando ocorrerão. O desempenho é altamente heterogêneo entre os domínios, sendo o momento do avanço da IA mais previsível do que os avanços em biologia, química e física. O desempenho é amplamente insensível a se os eventos ocorrem antes ou depois do corte de dados de treinamento, sugerindo que essas limitações não podem ser explicadas apenas pela exposição ao conhecimento nos dados de treinamento. Sob acesso controlado à informação, o conhecimento adicional pré-corte melhora o desempenho, mas não elimina a diferença em relação a cenários com informação completa, diferença esta que se torna mais pronunciada para avanços com alto número de citações. Os modelos também exibem excesso de confiança sistemático e fortes vieses de resposta, indicando estimativas de incerteza não confiáveis. Em conjunto, os atuais sistemas de IA são insuficientes como ferramentas preditivas para o progresso científico. O acesso ao conhecimento prévio não se traduz em previsão confiável, e o desempenho se beneficia mais de informações posteriores ao evento do que de predições prospectivas.

English

Artificial intelligence (AI) is increasingly embedded in scientific discovery, yet whether it can anticipate scientific progress remains unclear. To study this question, we introduce a temporally grounded evaluation framework for forecasting scientific progress under controlled knowledge constraints. We present CUSP (Cutoff-conditioned Unseen Scientific Progress), a multi-disciplinary and event-level benchmark that evaluates scientific forecasting in AI systems through feasibility assessment, mechanistic reasoning, generative solution design, and temporal prediction. Across 4,760 scientific events, we observe systematic and domain-dependent limitations in current frontier models. While models can identify plausible research directions from competing candidates, they fail to reliably predict whether scientific advances will be realized and systematically misestimate when they will occur. Performance is highly heterogeneous across domains, with the timing of AI progress more predictable than advances in biology, chemistry, and physics. Performance is largely insensitive to whether events occur before or after the training cutoff, suggesting these limitations cannot be explained solely by knowledge exposure in training data. Under controlled information access, additional pre-cutoff knowledge improves performance but does not close the gap to full-information settings, which becomes more pronounced for high-citation advances. Models also exhibit systematic overconfidence and strong response biases, indicating unreliable uncertainty estimation. Taken together, current AI systems fall short as predictive tools for scientific progress. Access to prior knowledge does not translate into reliable forecasting, and performance benefits more from post-event information than from forward-looking prediction.