Review Arcade: Zur menschlichen Ausrichtung und Manipulierbarkeit von LLM-Bewertungen

Zusammenfassung

LLM-generierte Reviews für wissenschaftliche Paper gewinnen erheblich an Bedeutung und werden sogar offiziell von großen Konferenzen pilotiert. Wir müssen davon ausgehen, dass nicht nur Reviewer LLM-Unterstützung nutzen, sondern auch Autoren LLMs zur Überarbeitung ihrer Paper vor der Einreichung einsetzen. In dieser Arbeit führen wir empirische Experimente mit Papern aus dem 2025 ACL Rolling Review (ARR) durch, um LLM-Reviews sowohl aus der Perspektive des Autors als auch des Reviewers zu bewerten. Zunächst stellen wir eine begrenzte Übereinstimmung von LLM-Reviews mit menschlichen Reviews fest. Im besten Fall ist die Übereinstimmung angemessen. Wir finden jedoch auch, dass die LLM-menschliche Übereinstimmung je nach Prompts und Modellen erheblich variiert. Schließlich untersuchen wir das Szenario, in dem der Autor einen iterativen Entwurf-Überarbeitungs-Workflow nutzt, um die Einreichung entsprechend des LLM-Reviews zu verbessern. Wir stellen fest, dass dieses "Gaming" von LLM-Reviews in bestimmten Szenarien effektiv sein kann und zu einem statistisch signifikanten Anstieg der Gesamtbewertungen für bis zu 35 % der Paper führt. Wir veröffentlichen unseren Code: https://github.com/uhh-hcds/reviewarcade.

English

LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this "gaming" of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.