Wer annotiert in der NLP? Eine groß angelegte Bewertung der Berichterstattung über menschliche Annotationen zwischen 2018 und 2025

Zusammenfassung

Die menschliche Annotation ist die empirische Grundlage eines Großteils der NLP-Forschung – von der Datensatzerstellung bis zur Modellevaluierung – doch in Publikationen bleibt oft unklar, wer die Annotationen durchgeführt hat und wie der Annotationsprozess kontrolliert wurde. Wir legen die erste groß angelegte, aufgabenbezogene Prüfung der Berichterstattung über menschliche Annotationen in den wichtigsten NLP-Konferenzen vor und untersuchen, welche Annotationsdetails dokumentiert werden, welche fehlen und wie sich die Berichterstattung über Zeit, Thema, Konferenz und den beabsichtigten Verwendungszweck des menschlichen Urteils hinweg unterscheidet. Wir führen eine einheitliche Taxonomie der Annotationsberichterstattungspraktiken ein und validieren eine LLM-gestützte Extraktionspipeline anhand von Annotated-gold, einem menschlich begutachteten Goldstandard mit 41 Artikeln und 72 Annotationsaufgaben, wobei das beste Modell eine mit menschlichen Übereinstimmungen vergleichbare Übereinstimmung mit den begutachteten Labels erreicht (Krippendorffs Alpha 0,606 gegenüber 0,585 für die Übereinstimmung zwischen Menschen). Mithilfe dieser Pipeline erstellen wir Annotated-llm, einen Datensatz, der ACL-Konferenzbeiträge aus den Jahren 2018–2025 abdeckt und 2.667 extrahierte Annotationsaufgaben aus 1.603 Artikeln umfasst. Wir stellen fest, dass Artikel häufig operationelle Details wie Rekrutierungsstrategien, die Expertise der Annotator:innen und den Annotationsumfang angeben, jedoch oft Angaben auslassen, die zur Beurteilung der Annotationsvalidität erforderlich sind – darunter Schulung, Sprachkompetenz, Vergütung, soziodemografische Daten, Begutachtung und Übereinstimmungswerte – insbesondere in Studien zur Modellevaluierung. Unsere Ergebnisse zeigen, dass sich die Annotationsberichterstattung im NLP im Laufe der Zeit verbessert hat, aber weiterhin uneinheitlich ist. Sie etablieren zudem ein skalierbares Rahmenwerk und Mindestberichtsempfehlungen, um menschliche Annotationen zuverlässiger, reproduzierbarer und interpretierbarer zu machen.

English

Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave unclear who produced the annotations and how the annotation process was controlled. We provide the first large-scale, task-level audit of human annotation reporting across major NLP venues, asking which annotation details are documented, which are missing, and how reporting varies across time, topic, venue, and intended use of human judgment. We introduce a unified taxonomy of annotation-reporting practices and validate an LLM-assisted extraction pipeline against Annotated-gold, a human-adjudicated gold standard of 41 papers and 72 annotation tasks, where the best model reaches human-comparable agreement with adjudicated labels, with Krippendorff's alpha of 0.606 versus 0.585 for human-human agreement. Using this pipeline, we construct Annotated-llm, a dataset covering ACL-venue papers from 2018-2025, with 2,667 extracted annotation tasks from 1,603 papers, and find that papers frequently report operational details such as recruitment strategies, annotator expertise, and annotation volume, but often omit details needed to assess annotation validity, including training, language proficiency, compensation, socio-demographics, adjudication, and agreement values, especially in model-evaluation studies. Our results show that annotation reporting in NLP has improved over time but remains uneven, and they establish a scalable framework and bare-minimum reporting recommendations for making human annotation more reliable, reproducible, and interpretable.