Sobre os limites e oportunidades dos revisores de IA: Analisando as avaliações de artigos da família Nature com 45 cientistas especialistas

Resumo

Com o avanço das capacidades da IA, revisores baseados em inteligência artificial estão começando a ser implantados na revisão por pares científica, mas sua capacidade e credibilidade ainda são questionadas: muitos cientistas simplesmente os veem como sistemas probabilísticos sem expertise para avaliar pesquisas, enquanto outros pesquisadores são mais otimistas quanto à sua prontidão, sem evidências concretas. Compreender no que os revisores de IA se saem bem, onde falham e quais desafios permanecem é essencial. No entanto, as avaliações existentes de revisores de IA concentraram-se em se seus vereditos correspondem aos vereditos humanos (por exemplo, alinhamento de pontuação, previsão de aceitação), o que é insuficiente para caracterizar suas capacidades e limitações. Neste artigo, preenchemos essa lacuna por meio de um estudo de anotação especializada em larga escala, no qual 45 cientistas das áreas de Ciências Físicas, Biológicas e da Saúde gastaram 469 horas avaliando 2.960 críticas individuais (cada uma visando um aspecto específico de um artigo) de revisões escritas por humanos e geradas por IA de 82 artigos da família Nature quanto à correção, significância e suficiência de evidências. Em uma composição de todas as três dimensões, um agente revisor baseado em GPT-5.2 supera o revisor humano mais bem avaliado de cada artigo (60,0% vs. 48,2%, p = 0,009), enquanto todos os três revisores de IA (incluindo Gemini 3.0 Pro e Claude Opus 4.5) excedem o revisor humano com classificação mais baixa em todas as dimensões. As críticas precisas dos revisores de IA também são mais frequentemente classificadas como significativas e bem fundamentadas, e revelam 26% de problemas distintos que nenhum humano levanta. No entanto, os revisores de IA se sobrepõem muito mais do que os humanos (21% vs. 3% para pares de revisores), e exibem 16 fragilidades recorrentes que os humanos não compartilham, como conhecimento limitado de subáreas, falta de gerenciamento de contexto longo em múltiplos arquivos e postura excessivamente crítica em questões menores. No geral, nossos resultados posicionam os revisores de IA atuais como complementos, e não substitutos, dos revisores humanos.

English

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.