Quando os Co-Cientistas de IA Falham: SPOT - Um Benchmark para Verificação Automatizada de Pesquisa Científica
When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research
May 17, 2025
Autores: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm alimentado a visão de descoberta científica automatizada, frequentemente chamada de Co-Cientistas de IA. Até o momento, trabalhos anteriores retratam esses sistemas como coautores generativos responsáveis por formular hipóteses, sintetizar código ou redigir manuscritos. Neste trabalho, exploramos uma aplicação complementar: o uso de LLMs como verificadores para automatizar a verificação acadêmica de manuscritos científicos. Para esse fim, introduzimos o SPOT, um conjunto de dados composto por 83 artigos publicados pareados com 91 erros significativos o suficiente para motivar errata ou retratação, validados cruzadamente com os autores reais e anotadores humanos. Avaliando LLMs de última geração no SPOT, descobrimos que nenhum supera 21,1% de recall ou 6,1% de precisão (o GPT-3 alcança os melhores resultados, com todos os outros próximos de zero). Além disso, as estimativas de confiança são uniformemente baixas, e, ao longo de oito execuções independentes, os modelos raramente redescobrem os mesmos erros, comprometendo sua confiabilidade. Por fim, a análise qualitativa com especialistas do domínio revela que mesmo os modelos mais fortes cometem erros semelhantes a equívocos de nível estudantil, derivados de mal-entendidos. Esses achados destacam a lacuna substancial entre as capacidades atuais dos LLMs e os requisitos para uma verificação acadêmica assistida por IA confiável.
English
Recent advances in large language models (LLMs) have fueled the vision of
automated scientific discovery, often called AI Co-Scientists. To date, prior
work casts these systems as generative co-authors responsible for crafting
hypotheses, synthesizing code, or drafting manuscripts. In this work, we
explore a complementary application: using LLMs as verifiers to automate the
academic verification of scientific manuscripts. To that end, we
introduce SPOT, a dataset of 83 published papers paired with 91 errors
significant enough to prompt errata or retraction, cross-validated with actual
authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find
that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best
scores, with all others near zero). Furthermore, confidence estimates are
uniformly low, and across eight independent runs, models rarely rediscover the
same errors, undermining their reliability. Finally, qualitative analysis with
domain experts reveals that even the strongest models make mistakes resembling
student-level misconceptions derived from misunderstandings. These findings
highlight the substantial gap between current LLM capabilities and the
requirements for dependable AI-assisted academic verification.