¿ReviewerGPT? Un estudio exploratorio sobre el uso de modelos de lenguaje de gran escala para la revisión de artículos académicos
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
June 1, 2023
Autores: Ryan Liu, Nihar B. Shah
cs.AI
Resumen
Dado el rápido ascenso de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), estudiamos la siguiente pregunta: ¿(Cómo) pueden los modelos de lenguaje grandes ayudar en la revisión de artículos científicos o propuestas? Primero, realizamos algunos estudios piloto en los que encontramos que (i) GPT-4 supera a otros LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), y (ii) el uso de indicaciones con preguntas específicas (por ejemplo, para identificar errores) supera a las indicaciones que simplemente solicitan escribir una revisión. Con estos hallazgos, estudiamos el uso de LLMs (específicamente, GPT-4) para tres tareas:
1. Identificación de errores: Construimos 13 artículos cortos de informática, cada uno con un error insertado deliberadamente, y pedimos al LLM que verificara la corrección de estos artículos. Observamos que el LLM encontró errores en 7 de ellos, abarcando tanto errores matemáticos como conceptuales.
2. Verificación de listas de verificación: Encargamos al LLM verificar 16 preguntas cerradas de listas de verificación en las secciones respectivas de 15 artículos de NeurIPS 2022. Encontramos que, en 119 pares {pregunta de lista de verificación, artículo}, el LLM tuvo una precisión del 86.6%.
3. Elección del artículo "mejor": Generamos 10 pares de resúmenes, diseñando deliberadamente cada par de manera que un resumen fuera claramente superior al otro. Sin embargo, el LLM tuvo dificultades para discernir estas distinciones relativamente sencillas con precisión, cometiendo errores en sus evaluaciones en 6 de los 10 pares.
Basándonos en estos experimentos, consideramos que los LLMs tienen un uso prometedor como asistentes de revisión para tareas específicas, pero no (aún) para evaluaciones completas de artículos o propuestas.
English
Given the rapid ascent of large language models (LLMs), we study the
question: (How) can large language models help in reviewing of scientific
papers or proposals? We first conduct some pilot studies where we find that (i)
GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly,
OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to
identify errors) outperforms prompting to simply write a review. With these
insights, we study the use of LLMs (specifically, GPT-4) for three tasks:
1. Identifying errors: We construct 13 short computer science papers each
with a deliberately inserted error, and ask the LLM to check for the
correctness of these papers. We observe that the LLM finds errors in 7 of them,
spanning both mathematical and conceptual errors.
2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist
questions in the respective sections of 15 NeurIPS 2022 papers. We find that
across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy.
3. Choosing the "better" paper: We generate 10 pairs of abstracts,
deliberately designing each pair in such a way that one abstract was clearly
superior than the other. The LLM, however, struggled to discern these
relatively straightforward distinctions accurately, committing errors in its
evaluations for 6 out of the 10 pairs.
Based on these experiments, we think that LLMs have a promising use as
reviewing assistants for specific reviewing tasks, but not (yet) for complete
evaluations of papers or proposals.