Wie annoteert in NLP? Een grootschalige evaluatie van de rapportage van menselijke annotaties tussen 2018 en 2025
Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025
June 1, 2026
Auteurs: Maria Kunilovskaya, Gagan Bhatia, Lisa Sophie Albertelli, Yanran Chen, Christian Greisinger, Lotta Kiefer, Christoph Leiter, Subhadeep Roy, Tewodros Achamaleh, Muhammad Arslan Manzoor, Sebastian Pohl, Yufang Hou, Steffen Eger
cs.AI
Samenvatting
Menselijke annotatie vormt de empirische basis van veel NLP-onderzoek, van datasetconstructie tot modelevaluatie, maar in papers blijft vaak onduidelijk wie de annotaties heeft geproduceerd en hoe het annotatieproces werd gecontroleerd. Wij presenteren de eerste grootschalige audit op taakniveau van rapportage over menselijke annotatie in toonaangevende NLP-venues, waarbij we nagaan welke annotatiedetails worden gedocumenteerd, welke ontbreken en hoe de rapportage varieert over tijd, onderwerp, venue en beoogd gebruik van menselijke oordelen. We introduceren een uniforme taxonomie van annotatierapportagepraktijken en valideren een LLM-ondersteunde extractiepijplijn tegen Annotated-gold, een door mensen geadjudiceerde gouden standaard van 41 papers en 72 annotatietaken, waarbij het beste model een menselijk vergelijkbare overeenstemming bereikt met de geadjudiceerde labels, met Krippendorffs alpha van 0,606 versus 0,585 voor mens-mensovereenstemming. Met behulp van deze pijplijn construeren we Annotated-llm, een dataset die ACL-venue papers uit 2018-2025 omvat, met 2.667 geëxtraheerde annotatietaken uit 1.603 papers. We vinden dat papers vaak operationele details rapporteren, zoals wervingsstrategieën, expertise van annotatoren en annotatievolume, maar vaak details weglaten die nodig zijn om de validiteit van annotaties te beoordelen, waaronder training, taalvaardigheid, compensatie, sociaaldemografische gegevens, adjudicatie en overeenstemmingswaarden, vooral in modelevaluatiestudies. Onze resultaten tonen aan dat annotatierapportage in NLP in de loop der tijd is verbeterd, maar ongelijkmatig blijft, en ze leggen een schaalbaar raamwerk en minimale rapportageaanbevelingen vast om menselijke annotatie betrouwbaarder, reproduceerbaarder en interpreteerbaarder te maken.
English
Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave unclear who produced the annotations and how the annotation process was controlled. We provide the first large-scale, task-level audit of human annotation reporting across major NLP venues, asking which annotation details are documented, which are missing, and how reporting varies across time, topic, venue, and intended use of human judgment. We introduce a unified taxonomy of annotation-reporting practices and validate an LLM-assisted extraction pipeline against Annotated-gold, a human-adjudicated gold standard of 41 papers and 72 annotation tasks, where the best model reaches human-comparable agreement with adjudicated labels, with Krippendorff's alpha of 0.606 versus 0.585 for human-human agreement. Using this pipeline, we construct Annotated-llm, a dataset covering ACL-venue papers from 2018-2025, with 2,667 extracted annotation tasks from 1,603 papers, and find that papers frequently report operational details such as recruitment strategies, annotator expertise, and annotation volume, but often omit details needed to assess annotation validity, including training, language proficiency, compensation, socio-demographics, adjudication, and agreement values, especially in model-evaluation studies. Our results show that annotation reporting in NLP has improved over time but remains uneven, and they establish a scalable framework and bare-minimum reporting recommendations for making human annotation more reliable, reproducible, and interpretable.