ReviewerGPT? Um Estudo Exploratório sobre o Uso de Modelos de Linguagem de Grande Escala para Revisão de Artigos
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
June 1, 2023
Autores: Ryan Liu, Nihar B. Shah
cs.AI
Resumo
Dada a rápida ascensão dos modelos de linguagem de grande escala (LLMs), investigamos a seguinte questão: (Como) os modelos de linguagem de grande escala podem auxiliar na revisão de artigos ou propostas científicas? Primeiro, conduzimos alguns estudos piloto, onde descobrimos que (i) o GPT-4 supera outros LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), e (ii) o uso de prompts com perguntas específicas (por exemplo, para identificar erros) é mais eficaz do que solicitar simplesmente a escrita de uma revisão. Com essas percepções, estudamos o uso de LLMs (especificamente, o GPT-4) para três tarefas:
1. Identificação de erros: Construímos 13 artigos curtos de ciência da computação, cada um com um erro inserido deliberadamente, e solicitamos ao LLM que verificasse a correção desses artigos. Observamos que o LLM identificou erros em 7 deles, abrangendo tanto erros matemáticos quanto conceituais.
2. Verificação de listas de verificação: Atribuímos ao LLM a tarefa de verificar 16 perguntas fechadas de listas de verificação nas respectivas seções de 15 artigos da NeurIPS 2022. Descobrimos que, em 119 pares {pergunta da lista de verificação, artigo}, o LLM teve uma precisão de 86,6%.
3. Escolha do artigo "melhor": Geramos 10 pares de resumos, projetando deliberadamente cada par de forma que um resumo fosse claramente superior ao outro. No entanto, o LLM teve dificuldade em discernir essas distinções relativamente simples com precisão, cometendo erros em suas avaliações para 6 dos 10 pares.
Com base nesses experimentos, acreditamos que os LLMs têm um uso promissor como assistentes de revisão para tarefas específicas de revisão, mas não (ainda) para avaliações completas de artigos ou propostas.
English
Given the rapid ascent of large language models (LLMs), we study the
question: (How) can large language models help in reviewing of scientific
papers or proposals? We first conduct some pilot studies where we find that (i)
GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly,
OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to
identify errors) outperforms prompting to simply write a review. With these
insights, we study the use of LLMs (specifically, GPT-4) for three tasks:
1. Identifying errors: We construct 13 short computer science papers each
with a deliberately inserted error, and ask the LLM to check for the
correctness of these papers. We observe that the LLM finds errors in 7 of them,
spanning both mathematical and conceptual errors.
2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist
questions in the respective sections of 15 NeurIPS 2022 papers. We find that
across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy.
3. Choosing the "better" paper: We generate 10 pairs of abstracts,
deliberately designing each pair in such a way that one abstract was clearly
superior than the other. The LLM, however, struggled to discern these
relatively straightforward distinctions accurately, committing errors in its
evaluations for 6 out of the 10 pairs.
Based on these experiments, we think that LLMs have a promising use as
reviewing assistants for specific reviewing tasks, but not (yet) for complete
evaluations of papers or proposals.