Review Arcade: Sobre la alineación humana y la manipulabilidad de las reseñas de LLM

Resumen

Las reseñas generadas por LLM para artículos científicos están ganando considerable relevancia e incluso están siendo probadas oficialmente en conferencias importantes. Debemos suponer que no solo los revisores utilizan asistencia de LLM, sino que también los autores emplean LLM para revisar sus artículos antes de enviarlos. En este trabajo, realizamos experimentos empíricos con artículos de la Revisión Continua de ACL (ARR) de 2025 para evaluar las reseñas generadas por LLM tanto desde la perspectiva del autor como del revisor. En primer lugar, identificamos una alineación limitada entre las reseñas de LLM y las humanas. En el mejor de los casos, la alineación es razonable. Sin embargo, también encontramos que la alineación entre LLM y humanos varía sustancialmente según las indicaciones y los modelos. Finalmente, investigamos el escenario en el que el autor utiliza un flujo de trabajo iterativo de borrador-revisión para mejorar el envío de acuerdo con la reseña del LLM. Descubrimos que esta "manipulación" de las reseñas de LLM puede ser efectiva en escenarios específicos, lo que lleva a un aumento estadísticamente significativo de las puntuaciones generales en hasta un 35 % de los artículos. Publicamos nuestro código: https://github.com/uhh-hcds/reviewarcade.

English

LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this "gaming" of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.