ReviewerGPT? Um Estudo Exploratório sobre o Uso de Modelos de Linguagem de Grande Escala para Revisão de Artigos

Resumo

Dada a rápida ascensão dos modelos de linguagem de grande escala (LLMs), investigamos a seguinte questão: (Como) os modelos de linguagem de grande escala podem auxiliar na revisão de artigos ou propostas científicas? Primeiro, conduzimos alguns estudos piloto, onde descobrimos que (i) o GPT-4 supera outros LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), e (ii) o uso de prompts com perguntas específicas (por exemplo, para identificar erros) é mais eficaz do que solicitar simplesmente a escrita de uma revisão. Com essas percepções, estudamos o uso de LLMs (especificamente, o GPT-4) para três tarefas: 1. Identificação de erros: Construímos 13 artigos curtos de ciência da computação, cada um com um erro inserido deliberadamente, e solicitamos ao LLM que verificasse a correção desses artigos. Observamos que o LLM identificou erros em 7 deles, abrangendo tanto erros matemáticos quanto conceituais. 2. Verificação de listas de verificação: Atribuímos ao LLM a tarefa de verificar 16 perguntas fechadas de listas de verificação nas respectivas seções de 15 artigos da NeurIPS 2022. Descobrimos que, em 119 pares {pergunta da lista de verificação, artigo}, o LLM teve uma precisão de 86,6%. 3. Escolha do artigo "melhor": Geramos 10 pares de resumos, projetando deliberadamente cada par de forma que um resumo fosse claramente superior ao outro. No entanto, o LLM teve dificuldade em discernir essas distinções relativamente simples com precisão, cometendo erros em suas avaliações para 6 dos 10 pares. Com base nesses experimentos, acreditamos que os LLMs têm um uso promissor como assistentes de revisão para tarefas específicas de revisão, mas não (ainda) para avaliações completas de artigos ou propostas.

English

Given the rapid ascent of large language models (LLMs), we study the question: (How) can large language models help in reviewing of scientific papers or proposals? We first conduct some pilot studies where we find that (i) GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to identify errors) outperforms prompting to simply write a review. With these insights, we study the use of LLMs (specifically, GPT-4) for three tasks: 1. Identifying errors: We construct 13 short computer science papers each with a deliberately inserted error, and ask the LLM to check for the correctness of these papers. We observe that the LLM finds errors in 7 of them, spanning both mathematical and conceptual errors. 2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist questions in the respective sections of 15 NeurIPS 2022 papers. We find that across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy. 3. Choosing the "better" paper: We generate 10 pairs of abstracts, deliberately designing each pair in such a way that one abstract was clearly superior than the other. The LLM, however, struggled to discern these relatively straightforward distinctions accurately, committing errors in its evaluations for 6 out of the 10 pairs. Based on these experiments, we think that LLMs have a promising use as reviewing assistants for specific reviewing tasks, but not (yet) for complete evaluations of papers or proposals.

ReviewerGPT? Um Estudo Exploratório sobre o Uso de Modelos de Linguagem de Grande Escala para Revisão de Artigos

ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Resumo

Support