ChatPaper.aiChatPaper

ReviewerGPT ? Une étude exploratoire sur l'utilisation des modèles de langage de grande taille pour l'examen d'articles scientifiques

ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

June 1, 2023
Auteurs: Ryan Liu, Nihar B. Shah
cs.AI

Résumé

Compte tenu de l'ascension rapide des grands modèles de langage (LLMs), nous étudions la question suivante : (Comment) les grands modèles de langage peuvent-ils contribuer à l'examen des articles scientifiques ou des propositions de recherche ? Nous menons d'abord quelques études pilotes où nous constatons que (i) GPT-4 surpasse les autres LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), et (ii) l'utilisation d'une question spécifique (par exemple, pour identifier des erreurs) donne de meilleurs résultats que la simple demande de rédiger une évaluation. Forts de ces observations, nous étudions l'utilisation des LLMs (en particulier GPT-4) pour trois tâches : 1. Identification des erreurs : Nous construisons 13 courts articles en informatique, chacun contenant une erreur insérée délibérément, et demandons au LLM de vérifier l'exactitude de ces articles. Nous observons que le LLM détecte des erreurs dans 7 d'entre eux, couvrant à la fois des erreurs mathématiques et conceptuelles. 2. Vérification des listes de contrôle : Nous confions au LLM la tâche de vérifier 16 questions fermées de listes de contrôle dans les sections respectives de 15 articles de NeurIPS 2022. Nous constatons que, sur 119 paires {question de liste de contrôle, article}, le LLM atteint une précision de 86,6 %. 3. Choix du "meilleur" article : Nous générons 10 paires de résumés, en concevant délibérément chaque paire de manière à ce qu'un résumé soit clairement supérieur à l'autre. Cependant, le LLM a eu du mal à discerner ces distinctions relativement simples avec précision, commettant des erreurs dans ses évaluations pour 6 des 10 paires. Sur la base de ces expériences, nous pensons que les LLMs ont un potentiel prometteur en tant qu'assistants pour des tâches spécifiques d'examen, mais pas (encore) pour des évaluations complètes d'articles ou de propositions.
English
Given the rapid ascent of large language models (LLMs), we study the question: (How) can large language models help in reviewing of scientific papers or proposals? We first conduct some pilot studies where we find that (i) GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to identify errors) outperforms prompting to simply write a review. With these insights, we study the use of LLMs (specifically, GPT-4) for three tasks: 1. Identifying errors: We construct 13 short computer science papers each with a deliberately inserted error, and ask the LLM to check for the correctness of these papers. We observe that the LLM finds errors in 7 of them, spanning both mathematical and conceptual errors. 2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist questions in the respective sections of 15 NeurIPS 2022 papers. We find that across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy. 3. Choosing the "better" paper: We generate 10 pairs of abstracts, deliberately designing each pair in such a way that one abstract was clearly superior than the other. The LLM, however, struggled to discern these relatively straightforward distinctions accurately, committing errors in its evaluations for 6 out of the 10 pairs. Based on these experiments, we think that LLMs have a promising use as reviewing assistants for specific reviewing tasks, but not (yet) for complete evaluations of papers or proposals.
PDF20December 15, 2024