LazyReview : Un ensemble de données pour détecter la pensée paresseuse dans les évaluations par les pairs en TAL
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
April 15, 2025
Auteurs: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
cs.AI
Résumé
L'examen par les pairs est une pierre angulaire du contrôle qualité dans l'édition scientifique.
Face à la charge de travail croissante, l'utilisation involontaire d'heuristiques « rapides »,
qualifiée de pensée paresseuse, est apparue comme un problème récurrent compromettant
la qualité des évaluations. Les méthodes automatisées pour détecter de telles heuristiques peuvent contribuer à améliorer
le processus d'examen par les pairs. Cependant, les recherches en traitement automatique du langage (NLP) sur ce sujet
sont limitées, et aucun jeu de données réel n'existe pour soutenir le développement d'outils de détection.
Ce travail présente LazyReview, un ensemble de données de phrases d'évaluation par les pairs annotées
avec des catégories fines de pensée paresseuse. Notre analyse révèle que les modèles de langage de grande taille (LLMs)
peinent à détecter ces instances dans un cadre zero-shot. Cependant, un ajustement fin basé sur des instructions
avec notre jeu de données améliore significativement les performances de 10 à 20 points, soulignant l'importance
de données d'entraînement de haute qualité. Par ailleurs, une expérience contrôlée démontre que les évaluations
révisées avec un retour sur la pensée paresseuse sont plus complètes et exploitables que celles rédigées sans
un tel retour. Nous mettrons à disposition notre jeu de données ainsi que les lignes directrices améliorées
qui pourront être utilisées pour former les jeunes évaluateurs de la communauté. (Code disponible ici :
https://github.com/UKPLab/arxiv2025-lazy-review)
English
Peer review is a cornerstone of quality control in scientific publishing.
With the increasing workload, the unintended use of `quick' heuristics,
referred to as lazy thinking, has emerged as a recurring issue compromising
review quality. Automated methods to detect such heuristics can help improve
the peer-reviewing process. However, there is limited NLP research on this
issue, and no real-world dataset exists to support the development of detection
tools. This work introduces LazyReview, a dataset of peer-review sentences
annotated with fine-grained lazy thinking categories. Our analysis reveals that
Large Language Models (LLMs) struggle to detect these instances in a zero-shot
setting. However, instruction-based fine-tuning on our dataset significantly
boosts performance by 10-20 performance points, highlighting the importance of
high-quality training data. Furthermore, a controlled experiment demonstrates
that reviews revised with lazy thinking feedback are more comprehensive and
actionable than those written without such feedback. We will release our
dataset and the enhanced guidelines that can be used to train junior reviewers
in the community. (Code available here:
https://github.com/UKPLab/arxiv2025-lazy-review)Summary
AI-Generated Summary