LazyReview: Un Conjunto de Datos para Identificar Pensamiento Superficial en Revisiones por Pares de Procesamiento del Lenguaje Natural
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
April 15, 2025
Autores: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
cs.AI
Resumen
La revisión por pares es un pilar fundamental del control de calidad en la publicación científica.
Con la creciente carga de trabajo, el uso no intencionado de heurísticas "rápidas",
denominado pensamiento perezoso, ha surgido como un problema recurrente que compromete
la calidad de las revisiones. Los métodos automatizados para detectar tales heurísticas
pueden ayudar a mejorar el proceso de revisión por pares. Sin embargo, existe una investigación
limitada en PLN (Procesamiento del Lenguaje Natural) sobre este tema, y no hay un conjunto de
datos del mundo real que respalde el desarrollo de herramientas de detección. Este trabajo
presenta LazyReview, un conjunto de datos de oraciones de revisiones por pares anotadas con
categorías detalladas de pensamiento perezoso. Nuestro análisis revela que los Modelos de
Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) tienen dificultades para detectar
estos casos en un entorno de cero disparos (zero-shot). Sin embargo, el ajuste fino basado
en instrucciones utilizando nuestro conjunto de datos mejora significativamente el rendimiento
en 10-20 puntos, destacando la importancia de los datos de entrenamiento de alta calidad.
Además, un experimento controlado demuestra que las revisiones corregidas con retroalimentación
sobre pensamiento perezoso son más completas y accionables que aquellas escritas sin dicha
retroalimentación. Publicaremos nuestro conjunto de datos y las pautas mejoradas que pueden
utilizarse para capacitar a revisores junior en la comunidad. (Código disponible aquí:
https://github.com/UKPLab/arxiv2025-lazy-review)
English
Peer review is a cornerstone of quality control in scientific publishing.
With the increasing workload, the unintended use of `quick' heuristics,
referred to as lazy thinking, has emerged as a recurring issue compromising
review quality. Automated methods to detect such heuristics can help improve
the peer-reviewing process. However, there is limited NLP research on this
issue, and no real-world dataset exists to support the development of detection
tools. This work introduces LazyReview, a dataset of peer-review sentences
annotated with fine-grained lazy thinking categories. Our analysis reveals that
Large Language Models (LLMs) struggle to detect these instances in a zero-shot
setting. However, instruction-based fine-tuning on our dataset significantly
boosts performance by 10-20 performance points, highlighting the importance of
high-quality training data. Furthermore, a controlled experiment demonstrates
that reviews revised with lazy thinking feedback are more comprehensive and
actionable than those written without such feedback. We will release our
dataset and the enhanced guidelines that can be used to train junior reviewers
in the community. (Code available here:
https://github.com/UKPLab/arxiv2025-lazy-review)Summary
AI-Generated Summary