Review Arcade : Sur l'alignement humain et l'exploitabilité des évaluations des LLM

Résumé

Les critiques générées par les LLM pour les articles scientifiques gagnent rapidement en importance et sont même testées officiellement par les grandes conférences. Nous devons supposer que non seulement les relecteurs utilisent l’assistance des LLM, mais aussi que les auteurs emploient des LLM pour réviser leurs articles avant de les soumettre. Dans ce travail, nous réalisons des expériences empiriques sur des articles de l’ACL Rolling Review (ARR) 2025 afin d’évaluer les critiques des LLM du point de vue de l’auteur et du relecteur. Premièrement, nous identifions un alignement limité entre les critiques des LLM et celles des humains. Dans le meilleur des cas, l’alignement est raisonnable. Cependant, nous constatons également que l’alignement LLM-humain varie considérablement selon les prompts et les modèles. Enfin, nous étudions le scénario dans lequel l’auteur utilise un flux de travail itératif de brouillon-révision pour améliorer la soumission en fonction de la critique du LLM. Nous constatons que cette « manipulation » des critiques des LLM peut être efficace dans des scénarios spécifiques, entraînant une augmentation statistiquement significative des scores globaux pour jusqu’à 35 % des articles. Nous publions notre code : https://github.com/uhh-hcds/reviewarcade.

English

LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this "gaming" of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.