Quem Anota em PLN? Uma Avaliação em Grande Escala do Relato de Anotações Humanas entre 2018 e 2025

Resumo

A anotação humana é o fundamento empírico de grande parte da pesquisa em PLN, desde a construção de conjuntos de dados até a avaliação de modelos, mas os artigos frequentemente deixam obscuro quem produziu as anotações e como o processo de anotação foi controlado. Apresentamos a primeira auditoria em larga escala, no nível de tarefa, da documentação de anotação humana nos principais veículos de PLN, investigando quais detalhes da anotação são documentados, quais estão ausentes e como a documentação varia ao longo do tempo, tópico, veículo e uso pretendido do julgamento humano. Introduzimos uma taxonomia unificada de práticas de documentação de anotação e validamos um pipeline de extração assistido por LLM contra o Annotated-gold, um padrão ouro adjudicado por humanos composto por 41 artigos e 72 tarefas de anotação, onde o melhor modelo atinge concordância comparável à humana com os rótulos adjudicados, com alfa de Krippendorff de 0,606 contra 0,585 para concordância humano-humano. Utilizando esse pipeline, construímos o Annotated-llm, um conjunto de dados que abrange artigos dos veículos da ACL de 2018 a 2025, com 2.667 tarefas de anotação extraídas de 1.603 artigos, e descobrimos que os artigos frequentemente relatam detalhes operacionais, como estratégias de recrutamento, expertise dos anotadores e volume de anotação, mas omitem frequentemente detalhes necessários para avaliar a validade da anotação, incluindo treinamento, proficiência linguística, compensação, dados sociodemográficos, adjudicação e valores de concordância, especialmente em estudos de avaliação de modelos. Nossos resultados mostram que a documentação de anotação em PLN melhorou ao longo do tempo, mas permanece desigual, e estabelecem uma estrutura escalável e recomendações mínimas de documentação para tornar a anotação humana mais confiável, reproduzível e interpretável.

English

Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave unclear who produced the annotations and how the annotation process was controlled. We provide the first large-scale, task-level audit of human annotation reporting across major NLP venues, asking which annotation details are documented, which are missing, and how reporting varies across time, topic, venue, and intended use of human judgment. We introduce a unified taxonomy of annotation-reporting practices and validate an LLM-assisted extraction pipeline against Annotated-gold, a human-adjudicated gold standard of 41 papers and 72 annotation tasks, where the best model reaches human-comparable agreement with adjudicated labels, with Krippendorff's alpha of 0.606 versus 0.585 for human-human agreement. Using this pipeline, we construct Annotated-llm, a dataset covering ACL-venue papers from 2018-2025, with 2,667 extracted annotation tasks from 1,603 papers, and find that papers frequently report operational details such as recruitment strategies, annotator expertise, and annotation volume, but often omit details needed to assess annotation validity, including training, language proficiency, compensation, socio-demographics, adjudication, and agreement values, especially in model-evaluation studies. Our results show that annotation reporting in NLP has improved over time but remains uneven, and they establish a scalable framework and bare-minimum reporting recommendations for making human annotation more reliable, reproducible, and interpretable.