Review Arcade: О согласовании с человеком и играбельности обзоров LLM

Аннотация

Рецензии, сгенерированные большими языковыми моделями (large language models, LLM), на научные статьи набирают значительную популярность и даже официально пилотируются крупными конференциями. Мы должны исходить из того, что не только рецензенты используют помощь LLM, но и авторы применяют LLM для доработки своих статей перед отправкой. В настоящей работе мы проводим эмпирические эксперименты на статьях из системы ACL Rolling Review (ARR) за 2025 год, чтобы оценить LLM-рецензии как с точки зрения автора, так и с точки зрения рецензента. Во-первых, мы выявляем ограниченное согласование LLM-рецензий с человеческими. В наилучшем случае согласование является разумным. Вместе с тем мы также обнаруживаем, что степень согласования между LLM и человеком существенно варьируется в зависимости от используемых промптов и моделей. Наконец, мы исследуем сценарий, в котором автор применяет итеративный процесс составления и редактирования (draft-revise workflow) для улучшения рукописи в соответствии с LLM-рецензией. Мы находим, что такая «игра» с LLM-рецензиями может быть эффективной в определённых сценариях, приводя к статистически значимому повышению итоговых оценок для 35% статей. Мы публикуем наш код: https://github.com/uhh-hcds/reviewarcade.

English

LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this "gaming" of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.