APRES: Een Agent-gebaseerd Systeem voor Paperrevisie en -evaluatie

Samenvatting

Wetenschappelijke ontdekkingen moeten duidelijk worden gecommuniceerd om hun volledige potentieel te realiseren. Zonder effectieve communicatie lopen zelfs de meest baanbrekende bevindingen het risico over het hoofd te worden gezien of verkeerd begrepen te worden. De primaire manier waarop wetenschappers hun werk communiceren en feedback ontvangen van de gemeenschap, is via collegiale toetsing (peer review). Het huidige systeem levert echter vaak inconsistente feedback tussen beoordelaars op, wat uiteindelijk de verbetering van een manuscript belemmert en de potentiële impact ervan beperkt. In dit artikel introduceren we een nieuwe methode, APRES, aangedreven door Large Language Models (LLM's), om de tekst van een wetenschappelijk artikel aan te passen op basis van een evaluatierubriek. Onze geautomatiseerde methode ontdekt een rubriek die sterk voorspellend is voor toekomstige citatieaantallen, en integreert deze met APRES in een geautomatiseerd systeem dat artikelen herziet om hun kwaliteit en impact te vergroten. Cruciaal hierbij is dat dit doel bereikt moet worden zonder de kern van de wetenschappelijke inhoud aan te tasten. We tonen het succes van APRES aan, dat de voorspelling van toekomstige citaties met 19,6% verbetert in gemiddelde absolute fout ten opzichte van de op één na beste baseline, en laten zien dat ons artikelrevisieproces leidt tot artikelen die 79% van de tijd de voorkeur genieten boven de originelen door menselijke expertbeoordelaars. Onze bevindingen bieden sterke empirische ondersteuning voor het gebruik van LLM's als hulpmiddel om auteurs te helpen hun manuscripten vóór indiening grondig te testen. Uiteindelijk streeft ons werk ernaar de essentiële rol van menselijke expertbeoordelaars aan te vullen, niet te vervangen, want het moeten mensen zijn die onderscheiden welke ontdekkingen er werkelijk toe doen, en die de wetenschap leiden naar het vergroten van kennis en het verrijken van levens.

English

Scientific discoveries must be communicated clearly to realize their full potential. Without effective communication, even the most groundbreaking findings risk being overlooked or misunderstood. The primary way scientists communicate their work and receive feedback from the community is through peer review. However, the current system often provides inconsistent feedback between reviewers, ultimately hindering the improvement of a manuscript and limiting its potential impact. In this paper, we introduce a novel method APRES powered by Large Language Models (LLMs) to update a scientific papers text based on an evaluation rubric. Our automated method discovers a rubric that is highly predictive of future citation counts, and integrate it with APRES in an automated system that revises papers to enhance their quality and impact. Crucially, this objective should be met without altering the core scientific content. We demonstrate the success of APRES, which improves future citation prediction by 19.6% in mean averaged error over the next best baseline, and show that our paper revision process yields papers that are preferred over the originals by human expert evaluators 79% of the time. Our findings provide strong empirical support for using LLMs as a tool to help authors stress-test their manuscripts before submission. Ultimately, our work seeks to augment, not replace, the essential role of human expert reviewers, for it should be humans who discern which discoveries truly matter, guiding science toward advancing knowledge and enriching lives.

APRES: Een Agent-gebaseerd Systeem voor Paperrevisie en -evaluatie

APRES: An Agentic Paper Revision and Evaluation System

Samenvatting

Support