ChatPaper.aiChatPaper

LazyReview: Ein Datensatz zur Aufdeckung von oberflächlichem Denken in NLP-Gutachten

LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews

April 15, 2025
Autoren: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
cs.AI

Zusammenfassung

Peer Review ist ein Eckpfeiler der Qualitätskontrolle in der wissenschaftlichen Veröffentlichungspraxis. Mit zunehmender Arbeitsbelastung hat sich die unbeabsichtigte Verwendung von „schnellen“ Heuristiken, die als faules Denken bezeichnet werden, als wiederkehrendes Problem herausgestellt, das die Qualität der Begutachtung beeinträchtigt. Automatisierte Methoden zur Erkennung solcher Heuristiken können dazu beitragen, den Peer-Review-Prozess zu verbessern. Allerdings gibt es nur begrenzte NLP-Forschung zu diesem Thema, und es existiert kein realer Datensatz, der die Entwicklung von Erkennungstools unterstützt. Diese Arbeit stellt LazyReview vor, einen Datensatz von Peer-Review-Sätzen, die mit fein abgestuften Kategorien des faulen Denkens annotiert sind. Unsere Analyse zeigt, dass Large Language Models (LLMs) Schwierigkeiten haben, diese Instanzen in einem Zero-Shot-Setting zu erkennen. Eine anweisungsbasierte Feinabstimmung auf unserem Datensatz verbessert die Leistung jedoch signifikant um 10-20 Leistungspunkte, was die Bedeutung von hochwertigen Trainingsdaten unterstreicht. Darüber hinaus zeigt ein kontrolliertes Experiment, dass Reviews, die mit Feedback zum faulen Denken überarbeitet wurden, umfassender und handlungsorientierter sind als solche, die ohne solches Feedback verfasst wurden. Wir werden unseren Datensatz sowie die erweiterten Richtlinien veröffentlichen, die zur Schulung von Nachwuchsgutachtern in der Community verwendet werden können. (Code verfügbar hier: https://github.com/UKPLab/arxiv2025-lazy-review)
English
Peer review is a cornerstone of quality control in scientific publishing. With the increasing workload, the unintended use of `quick' heuristics, referred to as lazy thinking, has emerged as a recurring issue compromising review quality. Automated methods to detect such heuristics can help improve the peer-reviewing process. However, there is limited NLP research on this issue, and no real-world dataset exists to support the development of detection tools. This work introduces LazyReview, a dataset of peer-review sentences annotated with fine-grained lazy thinking categories. Our analysis reveals that Large Language Models (LLMs) struggle to detect these instances in a zero-shot setting. However, instruction-based fine-tuning on our dataset significantly boosts performance by 10-20 performance points, highlighting the importance of high-quality training data. Furthermore, a controlled experiment demonstrates that reviews revised with lazy thinking feedback are more comprehensive and actionable than those written without such feedback. We will release our dataset and the enhanced guidelines that can be used to train junior reviewers in the community. (Code available here: https://github.com/UKPLab/arxiv2025-lazy-review)

Summary

AI-Generated Summary

PDF42April 16, 2025