ReviewerGPT ? Une étude exploratoire sur l'utilisation des modèles de langage de grande taille pour l'examen d'articles scientifiques
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
June 1, 2023
Auteurs: Ryan Liu, Nihar B. Shah
cs.AI
Résumé
Compte tenu de l'ascension rapide des grands modèles de langage (LLMs), nous étudions la question suivante : (Comment) les grands modèles de langage peuvent-ils contribuer à l'examen des articles scientifiques ou des propositions de recherche ? Nous menons d'abord quelques études pilotes où nous constatons que (i) GPT-4 surpasse les autres LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), et (ii) l'utilisation d'une question spécifique (par exemple, pour identifier des erreurs) donne de meilleurs résultats que la simple demande de rédiger une évaluation. Forts de ces observations, nous étudions l'utilisation des LLMs (en particulier GPT-4) pour trois tâches :
1. Identification des erreurs : Nous construisons 13 courts articles en informatique, chacun contenant une erreur insérée délibérément, et demandons au LLM de vérifier l'exactitude de ces articles. Nous observons que le LLM détecte des erreurs dans 7 d'entre eux, couvrant à la fois des erreurs mathématiques et conceptuelles.
2. Vérification des listes de contrôle : Nous confions au LLM la tâche de vérifier 16 questions fermées de listes de contrôle dans les sections respectives de 15 articles de NeurIPS 2022. Nous constatons que, sur 119 paires {question de liste de contrôle, article}, le LLM atteint une précision de 86,6 %.
3. Choix du "meilleur" article : Nous générons 10 paires de résumés, en concevant délibérément chaque paire de manière à ce qu'un résumé soit clairement supérieur à l'autre. Cependant, le LLM a eu du mal à discerner ces distinctions relativement simples avec précision, commettant des erreurs dans ses évaluations pour 6 des 10 paires.
Sur la base de ces expériences, nous pensons que les LLMs ont un potentiel prometteur en tant qu'assistants pour des tâches spécifiques d'examen, mais pas (encore) pour des évaluations complètes d'articles ou de propositions.
English
Given the rapid ascent of large language models (LLMs), we study the
question: (How) can large language models help in reviewing of scientific
papers or proposals? We first conduct some pilot studies where we find that (i)
GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly,
OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to
identify errors) outperforms prompting to simply write a review. With these
insights, we study the use of LLMs (specifically, GPT-4) for three tasks:
1. Identifying errors: We construct 13 short computer science papers each
with a deliberately inserted error, and ask the LLM to check for the
correctness of these papers. We observe that the LLM finds errors in 7 of them,
spanning both mathematical and conceptual errors.
2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist
questions in the respective sections of 15 NeurIPS 2022 papers. We find that
across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy.
3. Choosing the "better" paper: We generate 10 pairs of abstracts,
deliberately designing each pair in such a way that one abstract was clearly
superior than the other. The LLM, however, struggled to discern these
relatively straightforward distinctions accurately, committing errors in its
evaluations for 6 out of the 10 pairs.
Based on these experiments, we think that LLMs have a promising use as
reviewing assistants for specific reviewing tasks, but not (yet) for complete
evaluations of papers or proposals.