Кто занимается аннотированием в NLP? Крупномасштабная оценка отчетности по человеческой аннотации в период с 2018 по 2025 год.

Аннотация

Человеческая аннотация является эмпирической основой многих исследований в области обработки естественного языка (ОЕЯ) — от создания наборов данных до оценки моделей, — однако в статьях часто остаётся неясным, кто выполнял аннотации и как контролировался процесс аннотирования. Мы представляем первый масштабный аудит на уровне задач по документированию человеческой аннотации в ведущих конференциях по ОЕЯ, выясняя, какие детали аннотирования задокументированы, какие отсутствуют и как отчётность варьируется в зависимости от времени, темы, конференции и предполагаемого использования суждений человека. Мы вводим единую таксономию практик отчётности об аннотировании и валидируем конвейер извлечения с помощью LLM на основе Annotated-gold — согласованного экспертами золотого стандарта, включающего 41 статью и 72 задачи аннотирования, где лучшая модель достигает сравнимого с человеком согласия с урегулированными метками (альфа Криппендорфа 0,606 против 0,585 для согласия между людьми). Используя этот конвейер, мы создаём набор данных Annotated-llm, охватывающий статьи из материалов ACL за 2018–2025 годы, с 2 667 извлечёнными задачами аннотирования из 1 603 статей, и обнаруживаем, что статьи часто сообщают операционные детали, такие как стратегии набора, квалификация аннотаторов и объём аннотирования, но часто опускают детали, необходимые для оценки валидности аннотаций, включая обучение, владение языком, оплату, социально-демографические данные, урегулирование разногласий и значения согласованности, особенно в исследованиях по оценке моделей. Наши результаты показывают, что отчётность об аннотировании в ОЕЯ со временем улучшилась, но остаётся неравномерной; они также устанавливают масштабируемую основу и рекомендации по минимально необходимой отчётности для повышения надёжности, воспроизводимости и интерпретируемости человеческой аннотации.

English

Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave unclear who produced the annotations and how the annotation process was controlled. We provide the first large-scale, task-level audit of human annotation reporting across major NLP venues, asking which annotation details are documented, which are missing, and how reporting varies across time, topic, venue, and intended use of human judgment. We introduce a unified taxonomy of annotation-reporting practices and validate an LLM-assisted extraction pipeline against Annotated-gold, a human-adjudicated gold standard of 41 papers and 72 annotation tasks, where the best model reaches human-comparable agreement with adjudicated labels, with Krippendorff's alpha of 0.606 versus 0.585 for human-human agreement. Using this pipeline, we construct Annotated-llm, a dataset covering ACL-venue papers from 2018-2025, with 2,667 extracted annotation tasks from 1,603 papers, and find that papers frequently report operational details such as recruitment strategies, annotator expertise, and annotation volume, but often omit details needed to assess annotation validity, including training, language proficiency, compensation, socio-demographics, adjudication, and agreement values, especially in model-evaluation studies. Our results show that annotation reporting in NLP has improved over time but remains uneven, and they establish a scalable framework and bare-minimum reporting recommendations for making human annotation more reliable, reproducible, and interpretable.