LazyReview: Um Conjunto de Dados para Identificar Pensamento Preguiçoso em Revisões por Pares de NLP
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews
April 15, 2025
Autores: Sukannya Purkayastha, Zhuang Li, Anne Lauscher, Lizhen Qu, Iryna Gurevych
cs.AI
Resumo
A revisão por pares é um pilar fundamental do controle de qualidade na publicação científica. Com o aumento da carga de trabalho, o uso não intencional de heurísticas "rápidas", referido como pensamento preguiçoso, tem surgido como um problema recorrente que compromete a qualidade das revisões. Métodos automatizados para detectar tais heurísticas podem ajudar a melhorar o processo de revisão por pares. No entanto, há pesquisas limitadas em PLN (Processamento de Linguagem Natural) sobre esse tema, e não existe um conjunto de dados do mundo real para apoiar o desenvolvimento de ferramentas de detecção. Este trabalho apresenta o LazyReview, um conjunto de dados de frases de revisão por pares anotadas com categorias detalhadas de pensamento preguiçoso. Nossa análise revela que os Modelos de Linguagem de Grande Escala (LLMs) têm dificuldade em detectar esses casos em um cenário zero-shot. No entanto, o ajuste fino baseado em instruções em nosso conjunto de dados melhora significativamente o desempenho em 10 a 20 pontos, destacando a importância de dados de treinamento de alta qualidade. Além disso, um experimento controlado demonstra que as revisões revisadas com feedback sobre pensamento preguiçoso são mais abrangentes e acionáveis do que aquelas escritas sem tal feedback. Disponibilizaremos nosso conjunto de dados e as diretrizes aprimoradas que podem ser usadas para treinar revisores iniciantes na comunidade. (Código disponível aqui: https://github.com/UKPLab/arxiv2025-lazy-review)
English
Peer review is a cornerstone of quality control in scientific publishing.
With the increasing workload, the unintended use of `quick' heuristics,
referred to as lazy thinking, has emerged as a recurring issue compromising
review quality. Automated methods to detect such heuristics can help improve
the peer-reviewing process. However, there is limited NLP research on this
issue, and no real-world dataset exists to support the development of detection
tools. This work introduces LazyReview, a dataset of peer-review sentences
annotated with fine-grained lazy thinking categories. Our analysis reveals that
Large Language Models (LLMs) struggle to detect these instances in a zero-shot
setting. However, instruction-based fine-tuning on our dataset significantly
boosts performance by 10-20 performance points, highlighting the importance of
high-quality training data. Furthermore, a controlled experiment demonstrates
that reviews revised with lazy thinking feedback are more comprehensive and
actionable than those written without such feedback. We will release our
dataset and the enhanced guidelines that can be used to train junior reviewers
in the community. (Code available here:
https://github.com/UKPLab/arxiv2025-lazy-review)Summary
AI-Generated Summary