ReviewerGPT? Een verkennend onderzoek naar het gebruik van grote taalmodel- len voor het beoordelen van wetenschappelijke artikelen

Samenvatting

Gezien de snelle opkomst van grote taalmodellen (LLM's), onderzoeken we de vraag: (Hoe) kunnen grote taalmodellen helpen bij het beoordelen van wetenschappelijke artikelen of onderzoeksvoorstellen? We voeren eerst enkele pilotstudies uit waaruit blijkt dat (i) GPT-4 beter presteert dan andere LLM's (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), en (ii) het stellen van een specifieke vraag (bijvoorbeeld om fouten te identificeren) beter werkt dan simpelweg vragen om een beoordeling te schrijven. Met deze inzichten bestuderen we het gebruik van LLM's (specifiek GPT-4) voor drie taken: 1. **Fouten identificeren**: We construeren 13 korte computerwetenschappelijke artikelen, elk met een opzettelijk ingevoegde fout, en vragen het LLM om de juistheid van deze artikelen te controleren. We observeren dat het LLM fouten vindt in 7 van hen, zowel wiskundige als conceptuele fouten. 2. **Checklists verifiëren**: We laten het LLM 16 gesloten checklistvragen verifiëren in de respectievelijke secties van 15 NeurIPS 2022-artikelen. We constateren dat het LLM over 119 {checklistvraag, artikel}-paren een nauwkeurigheid van 86,6% behaalt. 3. **Het "beste" artikel kiezen**: We genereren 10 paren van samenvattingen, waarbij elk paar zodanig is ontworpen dat één samenvatting duidelijk superieur is aan de andere. Het LLM had echter moeite om deze relatief eenvoudige verschillen nauwkeurig te onderscheiden en maakte fouten in 6 van de 10 paren. Op basis van deze experimenten denken we dat LLM's een veelbelovend gebruik hebben als beoordelingsassistenten voor specifieke beoordelingstaken, maar (nog) niet voor volledige evaluaties van artikelen of voorstellen.

English

Given the rapid ascent of large language models (LLMs), we study the question: (How) can large language models help in reviewing of scientific papers or proposals? We first conduct some pilot studies where we find that (i) GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to identify errors) outperforms prompting to simply write a review. With these insights, we study the use of LLMs (specifically, GPT-4) for three tasks: 1. Identifying errors: We construct 13 short computer science papers each with a deliberately inserted error, and ask the LLM to check for the correctness of these papers. We observe that the LLM finds errors in 7 of them, spanning both mathematical and conceptual errors. 2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist questions in the respective sections of 15 NeurIPS 2022 papers. We find that across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy. 3. Choosing the "better" paper: We generate 10 pairs of abstracts, deliberately designing each pair in such a way that one abstract was clearly superior than the other. The LLM, however, struggled to discern these relatively straightforward distinctions accurately, committing errors in its evaluations for 6 out of the 10 pairs. Based on these experiments, we think that LLMs have a promising use as reviewing assistants for specific reviewing tasks, but not (yet) for complete evaluations of papers or proposals.

ReviewerGPT? Een verkennend onderzoek naar het gebruik van grote taalmodel- len voor het beoordelen van wetenschappelijke artikelen

ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Samenvatting

Support