Review Arcade: Over de menselijke afstemming en de gameability van LLM-recensies

Samenvatting

Door LLM gegenereerde beoordelingen voor wetenschappelijke artikelen winnen aanzienlijk aan populariteit en worden zelfs officieel getest door grote conferenties. We moeten aannemen dat niet alleen beoordelaars gebruikmaken van LLM-ondersteuning, maar ook dat auteurs LLM's gebruiken om hun artikelen te herzien vóór indiening. In dit werk voeren we empirische experimenten uit op artikelen van de 2025 ACL Rolling Review (ARR) om LLM-beoordelingen te evalueren vanuit zowel het perspectief van de auteur als dat van de beoordelaar. Ten eerste identificeren we een beperkte overeenstemming tussen LLM-beoordelingen en menselijke beoordelingen. In het beste scenario is de overeenstemming redelijk. Echter vinden we ook dat de overeenstemming tussen LLM en mens aanzienlijk varieert per prompt en model. Tot slot onderzoeken we het scenario waarin de auteur een iteratieve werkwijze van concept en revisie gebruikt om de inzending te verbeteren op basis van de LLM-beoordeling. We vinden dat dit 'gamen' van LLM-beoordelingen effectief kan zijn in specifieke scenario's, wat leidt tot een statistisch significante stijging van de totale scores voor maximaal 35% van de artikelen. We publiceren onze code: https://github.com/uhh-hcds/reviewarcade.

English

LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this "gaming" of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.