LazyReview: Een Dataset voor het Blootleggen van Lui Denken in NLP Peer Reviews
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
April 15, 2025
Auteurs: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
cs.AI
Samenvatting
Peer review is een hoeksteen van kwaliteitscontrole in wetenschappelijke publicaties.
Met de toenemende werklast is het onbedoelde gebruik van 'snelle' heuristieken,
aangeduid als lui denken, naar voren gekomen als een terugkerend probleem dat de
kwaliteit van reviews aantast. Geautomatiseerde methoden om dergelijke heuristieken
te detecteren kunnen helpen om het peer-reviewproces te verbeteren. Er is echter
beperkt NLP-onderzoek naar dit probleem, en er bestaat geen real-world dataset om
de ontwikkeling van detectietools te ondersteunen. Dit werk introduceert LazyReview,
een dataset van peer-reviewzinnen geannoteerd met fijnmazige categorieën van lui denken.
Onze analyse toont aan dat Large Language Models (LLMs) moeite hebben om deze gevallen
te detecteren in een zero-shot setting. Instructiegebaseerde fine-tuning op onze dataset
verbetert de prestaties echter aanzienlijk met 10-20 prestatiepunten, wat het belang
van hoogwaardige trainingsdata onderstreept. Bovendien toont een gecontroleerd experiment
aan dat reviews die zijn herzien met feedback over lui denken, uitgebreider en actiegerichter
zijn dan die zonder dergelijke feedback. We zullen onze dataset en de verbeterde richtlijnen
vrijgeven die kunnen worden gebruikt om junior reviewers in de gemeenschap op te leiden.
(Code beschikbaar hier: https://github.com/UKPLab/arxiv2025-lazy-review)
English
Peer review is a cornerstone of quality control in scientific publishing.
With the increasing workload, the unintended use of `quick' heuristics,
referred to as lazy thinking, has emerged as a recurring issue compromising
review quality. Automated methods to detect such heuristics can help improve
the peer-reviewing process. However, there is limited NLP research on this
issue, and no real-world dataset exists to support the development of detection
tools. This work introduces LazyReview, a dataset of peer-review sentences
annotated with fine-grained lazy thinking categories. Our analysis reveals that
Large Language Models (LLMs) struggle to detect these instances in a zero-shot
setting. However, instruction-based fine-tuning on our dataset significantly
boosts performance by 10-20 performance points, highlighting the importance of
high-quality training data. Furthermore, a controlled experiment demonstrates
that reviews revised with lazy thinking feedback are more comprehensive and
actionable than those written without such feedback. We will release our
dataset and the enhanced guidelines that can be used to train junior reviewers
in the community. (Code available here:
https://github.com/UKPLab/arxiv2025-lazy-review)Summary
AI-Generated Summary