Sobre los límites y oportunidades de los revisores de IA: Revisando las revisiones de artículos de la familia Nature con 45 científicos expertos

Resumen

Con el avance de las capacidades de la IA, los revisores basados en inteligencia artificial comienzan a implementarse en la revisión por pares científica, pero su capacidad y credibilidad siguen siendo cuestionadas: muchos científicos los consideran simplemente sistemas probabilísticos sin la experiencia necesaria para evaluar investigaciones, mientras que otros investigadores son más optimistas respecto a su preparación sin evidencia concreta. Comprender qué hacen bien los revisores de IA, en qué fallan y qué desafíos persisten es esencial. Sin embargo, las evaluaciones existentes de revisores de IA se han centrado en si sus veredictos coinciden con los veredictos humanos (por ejemplo, alineación de puntuaciones, predicción de aceptación), lo cual es insuficiente para caracterizar sus capacidades y limitaciones. En este artículo, cerramos esta brecha mediante un estudio de anotación experta a gran escala, en el que 45 científicos de dominio en Ciencias Físicas, Biológicas y de la Salud dedicaron 469 horas a calificar 2960 críticas individuales (cada una dirigida a un aspecto específico de un artículo) de revisiones escritas por humanos y generadas por IA de 82 artículos de la familia Nature en cuanto a corrección, importancia y suficiencia de la evidencia. En un compuesto de las tres dimensiones, un agente revisor impulsado por GPT-5.2 supera al revisor humano mejor calificado de cada artículo (60,0 % frente a 48,2 %, p = 0,009), mientras que los tres revisores de IA (incluidos Gemini 3.0 Pro y Claude Opus 4.5) superan al revisor peor calificado en todas las dimensiones. Las críticas precisas de los revisores de IA también son más frecuentemente consideradas significativas y bien fundamentadas, y revelan un 26 % distintivo de problemas que ningún humano plantea. Sin embargo, los revisores de IA se superponen mucho más que los humanos (21 % frente a 3 % para pares de revisores) y presentan 16 debilidades recurrentes que los humanos no comparten, como conocimiento limitado del subcampo, falta de gestión de contexto extenso en múltiples archivos y una postura excesivamente crítica sobre cuestiones menores. En general, nuestros resultados posicionan a los revisores de IA actuales como complementos, no sustitutos, de los revisores humanos.

English

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.