LazyReview: Ein Datensatz zur Aufdeckung von oberflächlichem Denken in NLP-Gutachten
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
April 15, 2025
Autoren: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
cs.AI
Zusammenfassung
Peer Review ist ein Eckpfeiler der Qualitätskontrolle in der wissenschaftlichen Veröffentlichungspraxis.
Mit zunehmender Arbeitsbelastung hat sich die unbeabsichtigte Verwendung von „schnellen“ Heuristiken,
die als faules Denken bezeichnet werden, als wiederkehrendes Problem herausgestellt, das die Qualität
der Begutachtung beeinträchtigt. Automatisierte Methoden zur Erkennung solcher Heuristiken können dazu
beitragen, den Peer-Review-Prozess zu verbessern. Allerdings gibt es nur begrenzte NLP-Forschung zu
diesem Thema, und es existiert kein realer Datensatz, der die Entwicklung von Erkennungstools unterstützt.
Diese Arbeit stellt LazyReview vor, einen Datensatz von Peer-Review-Sätzen, die mit fein abgestuften
Kategorien des faulen Denkens annotiert sind. Unsere Analyse zeigt, dass Large Language Models (LLMs)
Schwierigkeiten haben, diese Instanzen in einem Zero-Shot-Setting zu erkennen. Eine anweisungsbasierte
Feinabstimmung auf unserem Datensatz verbessert die Leistung jedoch signifikant um 10-20 Leistungspunkte,
was die Bedeutung von hochwertigen Trainingsdaten unterstreicht. Darüber hinaus zeigt ein kontrolliertes
Experiment, dass Reviews, die mit Feedback zum faulen Denken überarbeitet wurden, umfassender und
handlungsorientierter sind als solche, die ohne solches Feedback verfasst wurden. Wir werden unseren
Datensatz sowie die erweiterten Richtlinien veröffentlichen, die zur Schulung von Nachwuchsgutachtern
in der Community verwendet werden können. (Code verfügbar hier:
https://github.com/UKPLab/arxiv2025-lazy-review)
English
Peer review is a cornerstone of quality control in scientific publishing.
With the increasing workload, the unintended use of `quick' heuristics,
referred to as lazy thinking, has emerged as a recurring issue compromising
review quality. Automated methods to detect such heuristics can help improve
the peer-reviewing process. However, there is limited NLP research on this
issue, and no real-world dataset exists to support the development of detection
tools. This work introduces LazyReview, a dataset of peer-review sentences
annotated with fine-grained lazy thinking categories. Our analysis reveals that
Large Language Models (LLMs) struggle to detect these instances in a zero-shot
setting. However, instruction-based fine-tuning on our dataset significantly
boosts performance by 10-20 performance points, highlighting the importance of
high-quality training data. Furthermore, a controlled experiment demonstrates
that reviews revised with lazy thinking feedback are more comprehensive and
actionable than those written without such feedback. We will release our
dataset and the enhanced guidelines that can be used to train junior reviewers
in the community. (Code available here:
https://github.com/UKPLab/arxiv2025-lazy-review)Summary
AI-Generated Summary