LazyReview : Un ensemble de données pour détecter la pensée paresseuse dans les évaluations par les pairs en TAL

papers.abstract

L'examen par les pairs est une pierre angulaire du contrôle qualité dans l'édition scientifique. Face à la charge de travail croissante, l'utilisation involontaire d'heuristiques « rapides », qualifiée de pensée paresseuse, est apparue comme un problème récurrent compromettant la qualité des évaluations. Les méthodes automatisées pour détecter de telles heuristiques peuvent contribuer à améliorer le processus d'examen par les pairs. Cependant, les recherches en traitement automatique du langage (NLP) sur ce sujet sont limitées, et aucun jeu de données réel n'existe pour soutenir le développement d'outils de détection. Ce travail présente LazyReview, un ensemble de données de phrases d'évaluation par les pairs annotées avec des catégories fines de pensée paresseuse. Notre analyse révèle que les modèles de langage de grande taille (LLMs) peinent à détecter ces instances dans un cadre zero-shot. Cependant, un ajustement fin basé sur des instructions avec notre jeu de données améliore significativement les performances de 10 à 20 points, soulignant l'importance de données d'entraînement de haute qualité. Par ailleurs, une expérience contrôlée démontre que les évaluations révisées avec un retour sur la pensée paresseuse sont plus complètes et exploitables que celles rédigées sans un tel retour. Nous mettrons à disposition notre jeu de données ainsi que les lignes directrices améliorées qui pourront être utilisées pour former les jeunes évaluateurs de la communauté. (Code disponible ici : https://github.com/UKPLab/arxiv2025-lazy-review)

English

Peer review is a cornerstone of quality control in scientific publishing. With the increasing workload, the unintended use of `quick' heuristics, referred to as lazy thinking, has emerged as a recurring issue compromising review quality. Automated methods to detect such heuristics can help improve the peer-reviewing process. However, there is limited NLP research on this issue, and no real-world dataset exists to support the development of detection tools. This work introduces LazyReview, a dataset of peer-review sentences annotated with fine-grained lazy thinking categories. Our analysis reveals that Large Language Models (LLMs) struggle to detect these instances in a zero-shot setting. However, instruction-based fine-tuning on our dataset significantly boosts performance by 10-20 performance points, highlighting the importance of high-quality training data. Furthermore, a controlled experiment demonstrates that reviews revised with lazy thinking feedback are more comprehensive and actionable than those written without such feedback. We will release our dataset and the enhanced guidelines that can be used to train junior reviewers in the community. (Code available here: https://github.com/UKPLab/arxiv2025-lazy-review)

LazyReview : Un ensemble de données pour détecter la pensée paresseuse dans les évaluations par les pairs en TAL

LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews

papers.abstract

Support