APRES: Ein agentenbasiertes System zur Überarbeitung und Bewertung wissenschaftlicher Arbeiten
APRES: An Agentic Paper Revision and Evaluation System
March 3, 2026
Autoren: Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse, Minqi Jiang, Michael Shvartsman, Abhishek Charnalia, Despoina Magka, Tatiana Shavrina, Derek Dunfield, Oisin Mac Aodha, Yoram Bachrach
cs.AI
Zusammenfassung
Wissenschaftliche Entdeckungen müssen klar kommuniziert werden, um ihr volles Potenzial zu entfalten. Ohne eine effektive Kommunikation laufen selbst die bahnbrechendsten Erkenntnisse Gefahr, übersehen oder missverstanden zu werden. Der primäre Weg, auf dem Wissenschaftler ihre Arbeit kommunizieren und Feedback aus der Gemeinschaft erhalten, ist das Peer-Review-Verfahren. Das aktuelle System liefert jedoch oft inkonsistentes Feedback zwischen den Gutachtern, was letztlich die Verbesserung eines Manuskripts behindert und seine potenzielle Reichweite begrenzt. In diesem Beitrag stellen wir eine neue, auf Large Language Models (LLMs) basierende Methode namens APRES vor, um den Text eines wissenschaftlichen Artikels auf Basis eines Bewertungsrasters zu überarbeiten. Unsere automatisierte Methode ermittelt ein Raster, das die zukünftige Zitationszahl hochgradig vorhersagbar macht, und integriert es in ein automatisiertes System, das Artikel überarbeitet, um deren Qualität und Wirkung zu steigern. Entscheidend ist, dass dies erreicht werden soll, ohne den wissenschaftlichen Kerninhalt zu verändern. Wir demonstrieren den Erfolg von APRES, das die Vorhersage zukünftiger Zitationen um 19,6 % im mittleren durchschnittlichen Fehler gegenüber der nächstbesten Baseline verbessert, und zeigen, dass unser Überarbeitungsprozess Artikel hervorbringt, die von menschlichen Expertengutachtern in 79 % der Fälle den Originalen vorgezogen werden. Unsere Ergebnisse liefern eine starke empirische Untermauerung für den Einsatz von LLMs als Werkzeug, um Autoren dabei zu helfen, ihre Manuskripte vor der Einreichung einem Stresstest zu unterziehen. Letztlich zielt unsere Arbeit darauf ab, die essentielle Rolle menschlicher Gutachter zu ergänzen, nicht zu ersetzen, denn es sollten Menschen sein, die entscheiden, welche Entdeckungen wirklich von Bedeutung sind und die Wissenschaft dahin lenken, Wissen zu mehren und Leben zu bereichern.
English
Scientific discoveries must be communicated clearly to realize their full potential. Without effective communication, even the most groundbreaking findings risk being overlooked or misunderstood. The primary way scientists communicate their work and receive feedback from the community is through peer review. However, the current system often provides inconsistent feedback between reviewers, ultimately hindering the improvement of a manuscript and limiting its potential impact. In this paper, we introduce a novel method APRES powered by Large Language Models (LLMs) to update a scientific papers text based on an evaluation rubric. Our automated method discovers a rubric that is highly predictive of future citation counts, and integrate it with APRES in an automated system that revises papers to enhance their quality and impact. Crucially, this objective should be met without altering the core scientific content. We demonstrate the success of APRES, which improves future citation prediction by 19.6% in mean averaged error over the next best baseline, and show that our paper revision process yields papers that are preferred over the originals by human expert evaluators 79% of the time. Our findings provide strong empirical support for using LLMs as a tool to help authors stress-test their manuscripts before submission. Ultimately, our work seeks to augment, not replace, the essential role of human expert reviewers, for it should be humans who discern which discoveries truly matter, guiding science toward advancing knowledge and enriching lives.