LazyReview: Набор данных для выявления поверхностного мышления в рецензировании статей по NLP
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
April 15, 2025
Авторы: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
cs.AI
Аннотация
Рецензирование является краеугольным камнем контроля качества в научных публикациях.
С увеличением рабочей нагрузки непреднамеренное использование "быстрых" эвристик,
называемое ленивым мышлением, стало повторяющейся проблемой, снижающей качество рецензий.
Автоматизированные методы для выявления таких эвристик могут помочь улучшить процесс рецензирования.
Однако исследований в области обработки естественного языка (NLP) по этой теме недостаточно,
и отсутствуют реальные наборы данных для разработки инструментов обнаружения.
В данной работе представлен LazyReview — набор данных, содержащий предложения из рецензий,
аннотированные с учетом детализированных категорий ленивого мышления.
Наш анализ показывает, что крупные языковые модели (LLMs) испытывают трудности
с обнаружением таких случаев в условиях zero-shot обучения.
Однако тонкая настройка на основе инструкций с использованием нашего набора данных
значительно повышает производительность на 10–20 процентных пунктов,
подчеркивая важность высококачественных обучающих данных.
Кроме того, контролируемый эксперимент демонстрирует, что рецензии,
переработанные с учетом обратной связи по ленивому мышлению,
являются более полными и полезными, чем те, которые написаны без такой обратной связи.
Мы опубликуем наш набор данных и улучшенные руководства,
которые могут быть использованы для обучения начинающих рецензентов в сообществе.
(Код доступен здесь: https://github.com/UKPLab/arxiv2025-lazy-review)
English
Peer review is a cornerstone of quality control in scientific publishing.
With the increasing workload, the unintended use of `quick' heuristics,
referred to as lazy thinking, has emerged as a recurring issue compromising
review quality. Automated methods to detect such heuristics can help improve
the peer-reviewing process. However, there is limited NLP research on this
issue, and no real-world dataset exists to support the development of detection
tools. This work introduces LazyReview, a dataset of peer-review sentences
annotated with fine-grained lazy thinking categories. Our analysis reveals that
Large Language Models (LLMs) struggle to detect these instances in a zero-shot
setting. However, instruction-based fine-tuning on our dataset significantly
boosts performance by 10-20 performance points, highlighting the importance of
high-quality training data. Furthermore, a controlled experiment demonstrates
that reviews revised with lazy thinking feedback are more comprehensive and
actionable than those written without such feedback. We will release our
dataset and the enhanced guidelines that can be used to train junior reviewers
in the community. (Code available here:
https://github.com/UKPLab/arxiv2025-lazy-review)Summary
AI-Generated Summary