ChatPaper.aiChatPaper

Cuando los Co-Científicos de IA Fracasan: SPOT - Un Punto de Referencia para la Verificación Automatizada de la Investigación Científica

When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research

May 17, 2025
Autores: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado la visión del descubrimiento científico automatizado, a menudo denominado Co-Científicos de IA. Hasta la fecha, trabajos previos han presentado estos sistemas como coautores generativos responsables de formular hipótesis, sintetizar código o redactar manuscritos. En este trabajo, exploramos una aplicación complementaria: el uso de LLMs como verificadores para automatizar la verificación académica de manuscritos científicos. Con este fin, presentamos SPOT, un conjunto de datos que incluye 83 artículos publicados junto con 91 errores lo suficientemente significativos como para justificar erratas o retractaciones, validados cruzadamente con los autores reales y anotadores humanos. Al evaluar los LLMs más avanzados en SPOT, encontramos que ninguno supera el 21,1% de recuperación o el 6,1% de precisión (o3 obtiene los mejores resultados, con todos los demás cercanos a cero). Además, las estimaciones de confianza son uniformemente bajas, y en ocho ejecuciones independientes, los modelos rara vez redescubren los mismos errores, lo que socava su fiabilidad. Finalmente, un análisis cualitativo con expertos en el dominio revela que incluso los modelos más fuertes cometen errores que se asemejan a conceptos erróneos de nivel estudiantil derivados de malentendidos. Estos hallazgos subrayan la brecha sustancial entre las capacidades actuales de los LLMs y los requisitos para una verificación académica asistida por IA confiable.
English
Recent advances in large language models (LLMs) have fueled the vision of automated scientific discovery, often called AI Co-Scientists. To date, prior work casts these systems as generative co-authors responsible for crafting hypotheses, synthesizing code, or drafting manuscripts. In this work, we explore a complementary application: using LLMs as verifiers to automate the academic verification of scientific manuscripts. To that end, we introduce SPOT, a dataset of 83 published papers paired with 91 errors significant enough to prompt errata or retraction, cross-validated with actual authors and human annotators. Evaluating state-of-the-art LLMs on SPOT, we find that none surpasses 21.1\% recall or 6.1\% precision (o3 achieves the best scores, with all others near zero). Furthermore, confidence estimates are uniformly low, and across eight independent runs, models rarely rediscover the same errors, undermining their reliability. Finally, qualitative analysis with domain experts reveals that even the strongest models make mistakes resembling student-level misconceptions derived from misunderstandings. These findings highlight the substantial gap between current LLM capabilities and the requirements for dependable AI-assisted academic verification.

Summary

AI-Generated Summary

PDF92May 20, 2025