¿Quién anota en PLN? Una evaluación a gran escala del informe de anotación humana entre 2018 y 2025

Resumen

La anotación humana constituye el fundamento empírico de gran parte de la investigación en PLN, desde la construcción de conjuntos de datos hasta la evaluación de modelos, pero los artículos a menudo dejan sin especificar quién produjo las anotaciones y cómo se controló el proceso de anotación. Presentamos la primera auditoría a gran escala y a nivel de tarea sobre la documentación de la anotación humana en las principales conferencias de PLN, preguntando qué detalles de la anotación se documentan, cuáles faltan y cómo varía la documentación según el tiempo, el tema, la conferencia y el uso previsto del juicio humano. Introducimos una taxonomía unificada de prácticas de documentación de anotaciones y validamos un canal de extracción asistido por LLM frente a Annotated-gold, un estándar de oro adjudicado por humanos compuesto por 41 artículos y 72 tareas de anotación, donde el mejor modelo alcanza un acuerdo comparable al humano con las etiquetas adjudicadas, con un alfa de Krippendorff de 0,606 frente a 0,585 para el acuerdo entre humanos. Utilizando este canal, construimos Annotated-llm, un conjunto de datos que abarca artículos de las conferencias ACL entre 2018 y 2025, con 2.667 tareas de anotación extraídas de 1.603 artículos, y encontramos que los artículos reportan con frecuencia detalles operativos como las estrategias de reclutamiento, la experiencia de los anotadores y el volumen de anotación, pero omiten detalles necesarios para evaluar la validez de la anotación, incluyendo la capacitación, la competencia lingüística, la compensación, los datos sociodemográficos, la adjudicación y los valores de acuerdo, especialmente en los estudios de evaluación de modelos. Nuestros resultados muestran que la documentación de la anotación en PLN ha mejorado con el tiempo, pero sigue siendo desigual, y establecen un marco escalable y recomendaciones mínimas de documentación para hacer que la anotación humana sea más fiable, reproducible e interpretable.

English

Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave unclear who produced the annotations and how the annotation process was controlled. We provide the first large-scale, task-level audit of human annotation reporting across major NLP venues, asking which annotation details are documented, which are missing, and how reporting varies across time, topic, venue, and intended use of human judgment. We introduce a unified taxonomy of annotation-reporting practices and validate an LLM-assisted extraction pipeline against Annotated-gold, a human-adjudicated gold standard of 41 papers and 72 annotation tasks, where the best model reaches human-comparable agreement with adjudicated labels, with Krippendorff's alpha of 0.606 versus 0.585 for human-human agreement. Using this pipeline, we construct Annotated-llm, a dataset covering ACL-venue papers from 2018-2025, with 2,667 extracted annotation tasks from 1,603 papers, and find that papers frequently report operational details such as recruitment strategies, annotator expertise, and annotation volume, but often omit details needed to assess annotation validity, including training, language proficiency, compensation, socio-demographics, adjudication, and agreement values, especially in model-evaluation studies. Our results show that annotation reporting in NLP has improved over time but remains uneven, and they establish a scalable framework and bare-minimum reporting recommendations for making human annotation more reliable, reproducible, and interpretable.