О границах и возможностях ИИ-рецензентов: анализ рецензий на статьи семейства Nature с участием 45 ученых-экспертов

Аннотация

По мере развития возможностей ИИ рецензенты на основе искусственного интеллекта начинают применяться в научном рецензировании, однако их компетентность и надежность остаются под вопросом: многие ученые рассматривают их лишь как вероятностные системы, не обладающие экспертизой для оценки исследований, в то время как другие исследователи более оптимистично настроены в отношении их готовности, не имея конкретных доказательств. Понимание того, в чем ИИ-рецензенты сильны, в чем их слабости и какие проблемы остаются нерешенными, имеет решающее значение. Однако существующие оценки ИИ-рецензентов сосредоточены на том, совпадают ли их заключения с заключениями людей (например, согласованность оценок, прогнозирование принятия), что недостаточно для характеристики их возможностей и ограничений. В данной статье мы восполняем этот пробел с помощью крупномасштабного исследования с экспертным аннотированием, в котором 45 ученых в области физических, биологических и медицинских наук потратили 469 часов на оценку 2960 отдельных замечаний (каждое из которых касается одного конкретного аспекта статьи) из написанных людьми и сгенерированных ИИ рецензий на 82 статьи из семейства журналов Nature по критериям корректности, значимости и достаточности доказательств. По композитному показателю всех трех измерений рецензент на основе GPT-5.2 превосходит лучшего человеческого рецензента каждой статьи (60,0% против 48,2%, p = 0,009), в то время как все три ИИ-рецензента (включая Gemini 3.0 Pro и Claude Opus 4.5) превосходят худшего человеческого рецензента по каждому из измерений. Точные замечания ИИ также чаще оцениваются как значимые и хорошо обоснованные и выявляют отдельный набор из 26% проблем, которые не поднимаются людьми. Однако ИИ-рецензенты демонстрируют гораздо большее перекрытие, чем люди (21% против 3% для пар рецензентов), и имеют 16 повторяющихся слабых мест, не свойственных людям, таких как ограниченное знание подполей, отсутствие управления длинным контекстом при работе с несколькими файлами и чрезмерно критичная позиция по второстепенным вопросам. В целом, наши результаты позиционируют текущих ИИ-рецензентов как дополнение, а не замену человеческим рецензентам.

English

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.