ReviewerGPT? Исследование возможностей использования крупных языковых моделей для рецензирования научных статей
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
June 1, 2023
Авторы: Ryan Liu, Nihar B. Shah
cs.AI
Аннотация
Учитывая стремительное развитие крупных языковых моделей (LLM), мы исследуем вопрос: (Как) могут ли крупные языковые модели помочь в рецензировании научных статей или заявок? Сначала мы проводим несколько пилотных исследований, в которых обнаруживаем, что (i) GPT-4 превосходит другие LLM (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), и (ii) запрос с конкретным вопросом (например, на выявление ошибок) работает лучше, чем запрос на написание рецензии. На основе этих наблюдений мы изучаем использование LLM (в частности, GPT-4) для трех задач:
1. Выявление ошибок: Мы создаем 13 коротких статей по компьютерным наукам, в каждую из которых намеренно вставляем ошибку, и просим LLM проверить их корректность. Мы отмечаем, что LLM находит ошибки в 7 из них, включая как математические, так и концептуальные ошибки.
2. Проверка контрольных списков: Мы поручаем LLM проверить 16 закрытых вопросов из контрольных списков в соответствующих разделах 15 статей NeurIPS 2022. Мы обнаруживаем, что из 119 пар {вопрос контрольного списка, статья} LLM демонстрирует точность 86,6%.
3. Выбор «лучшей» статьи: Мы генерируем 10 пар аннотаций, намеренно проектируя каждую пару так, чтобы одна аннотация явно превосходила другую. Однако LLM с трудом справляется с распознаванием этих относительно простых различий, допуская ошибки в оценках для 6 из 10 пар.
На основе этих экспериментов мы считаем, что LLM имеют перспективное применение в качестве помощников для рецензирования в рамках конкретных задач, но пока не подходят для полной оценки статей или заявок.
English
Given the rapid ascent of large language models (LLMs), we study the
question: (How) can large language models help in reviewing of scientific
papers or proposals? We first conduct some pilot studies where we find that (i)
GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly,
OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to
identify errors) outperforms prompting to simply write a review. With these
insights, we study the use of LLMs (specifically, GPT-4) for three tasks:
1. Identifying errors: We construct 13 short computer science papers each
with a deliberately inserted error, and ask the LLM to check for the
correctness of these papers. We observe that the LLM finds errors in 7 of them,
spanning both mathematical and conceptual errors.
2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist
questions in the respective sections of 15 NeurIPS 2022 papers. We find that
across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy.
3. Choosing the "better" paper: We generate 10 pairs of abstracts,
deliberately designing each pair in such a way that one abstract was clearly
superior than the other. The LLM, however, struggled to discern these
relatively straightforward distinctions accurately, committing errors in its
evaluations for 6 out of the 10 pairs.
Based on these experiments, we think that LLMs have a promising use as
reviewing assistants for specific reviewing tasks, but not (yet) for complete
evaluations of papers or proposals.