Qui annote en TAL ? Une évaluation à grande échelle des rapports d'annotation humaine entre 2018 et 2025

Résumé

L'annotation humaine constitue le fondement empirique d'une grande partie de la recherche en traitement automatique des langues naturelles (TALN), depuis la construction de jeux de données jusqu'à l'évaluation de modèles, mais les articles laissent souvent flou qui a produit les annotations et comment le processus d'annotation a été contrôlé. Nous présentons la première vérification à grande échelle, au niveau des tâches, des pratiques de compte rendu d'annotation humaine dans les principales conférences de TALN, en examinant quels détails d'annotation sont documentés, lesquels sont absents, et comment les pratiques de compte rendu varient selon le temps, le sujet, la conférence et l'usage prévu du jugement humain. Nous introduisons une taxonomie unifiée des pratiques de compte rendu d'annotation et validons un pipeline d'extraction assisté par LLM par rapport à Annotated-gold, un étalon-or arbitré par des humains composé de 41 articles et 72 tâches d'annotation, où le meilleur modèle atteint un accord comparable à celui des humains avec les étiquettes arbitrées, avec un alpha de Krippendorff de 0,606 contre 0,585 pour l'accord inter-humain. En utilisant ce pipeline, nous construisons Annotated-llm, un jeu de données couvrant les articles des conférences ACL de 2018 à 2025, avec 2 667 tâches d'annotation extraites issues de 1 603 articles, et nous constatons que les articles rapportent fréquemment des détails opérationnels tels que les stratégies de recrutement, l'expertise des annotateurs et le volume d'annotation, mais omettent souvent les détails nécessaires pour évaluer la validité de l'annotation, notamment la formation, la compétence linguistique, la rémunération, les données sociodémographiques, l'arbitrage et les valeurs d'accord, en particulier dans les études d'évaluation de modèles. Nos résultats montrent que le compte rendu d'annotation en TALN s'est amélioré au fil du temps, mais reste inégal, et ils établissent un cadre reproductible ainsi que des recommandations minimales de compte rendu pour rendre l'annotation humaine plus fiable, reproductible et interprétable.

English

Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave unclear who produced the annotations and how the annotation process was controlled. We provide the first large-scale, task-level audit of human annotation reporting across major NLP venues, asking which annotation details are documented, which are missing, and how reporting varies across time, topic, venue, and intended use of human judgment. We introduce a unified taxonomy of annotation-reporting practices and validate an LLM-assisted extraction pipeline against Annotated-gold, a human-adjudicated gold standard of 41 papers and 72 annotation tasks, where the best model reaches human-comparable agreement with adjudicated labels, with Krippendorff's alpha of 0.606 versus 0.585 for human-human agreement. Using this pipeline, we construct Annotated-llm, a dataset covering ACL-venue papers from 2018-2025, with 2,667 extracted annotation tasks from 1,603 papers, and find that papers frequently report operational details such as recruitment strategies, annotator expertise, and annotation volume, but often omit details needed to assess annotation validity, including training, language proficiency, compensation, socio-demographics, adjudication, and agreement values, especially in model-evaluation studies. Our results show that annotation reporting in NLP has improved over time but remains uneven, and they establish a scalable framework and bare-minimum reporting recommendations for making human annotation more reliable, reproducible, and interpretable.