Quando i Co-Scienziati AI Falliscono: SPOT - Un Benchmark per la Verifica Automatica della Ricerca Scientifica
When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research
May 17, 2025
Autori: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno alimentato la visione della scoperta scientifica automatizzata, spesso denominata AI Co-Scientists. Fino ad oggi, il lavoro precedente ha descritto questi sistemi come co-autori generativi responsabili di formulare ipotesi, sintetizzare codice o redigere manoscritti. In questo lavoro, esploriamo un'applicazione complementare: l'utilizzo degli LLM come verificatori per automatizzare la verifica accademica dei manoscritti scientifici. A tal fine, introduciamo SPOT, un dataset composto da 83 articoli pubblicati accoppiati a 91 errori significativi tali da richiedere erratum o ritrattazione, convalidati incrociatamente con gli autori effettivi e annotatori umani. Valutando gli LLM più avanzati su SPOT, riscontriamo che nessuno supera il 21,1% di richiamo o il 6,1% di precisione (o3 ottiene i punteggi migliori, con tutti gli altri vicini allo zero). Inoltre, le stime di confidenza sono uniformemente basse e, in otto esecuzioni indipendenti, i modelli raramente riscoprono gli stessi errori, minando la loro affidabilità. Infine, l'analisi qualitativa con esperti di dominio rivela che anche i modelli più forti commettono errori simili a misconcezioni di livello studentesco derivanti da fraintendimenti. Questi risultati evidenziano il divario sostanziale tra le capacità attuali degli LLM e i requisiti per una verifica accademica assistita dall'AI affidabile.
English
Recent advances in large language models (LLMs) have fueled the vision of
automated scientific discovery, often called AI Co-Scientists. To date, prior
work casts these systems as generative co-authors responsible for crafting
hypotheses, synthesizing code, or drafting manuscripts. In this work, we
explore a complementary application: using LLMs as verifiers to automate the
academic verification of scientific manuscripts. To that end, we
introduce SPOT, a dataset of 83 published papers paired with 91 errors
significant enough to prompt errata or retraction, cross-validated with actual
authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find
that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best
scores, with all others near zero). Furthermore, confidence estimates are
uniformly low, and across eight independent runs, models rarely rediscover the
same errors, undermining their reliability. Finally, qualitative analysis with
domain experts reveals that even the strongest models make mistakes resembling
student-level misconceptions derived from misunderstandings. These findings
highlight the substantial gap between current LLM capabilities and the
requirements for dependable AI-assisted academic verification.