Могут ли крупные языковые модели учитывать разногласия между аннотаторами-людьми?
Can Large Language Models Capture Human Annotator Disagreements?
June 24, 2025
Авторы: Jingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash
cs.AI
Аннотация
Вариативность человеческой аннотации (т. е. разногласия в аннотациях) является распространённым явлением в NLP и часто отражает важную информацию, такую как субъективность задачи и неоднозначность образцов. Хотя крупные языковые модели (LLM) всё чаще используются для автоматической аннотации с целью сокращения человеческих усилий, их оценка обычно сосредоточена на предсказании меток, основанных на большинстве голосов («истинных» меток). Однако до сих пор неясно, способны ли эти модели также учитывать информативную вариативность человеческой аннотации. Наша работа восполняет этот пробел, проводя всестороннюю оценку способности LLM предсказывать разногласия в аннотациях без доступа к повторным человеческим меткам. Наши результаты показывают, что LLM испытывают трудности с моделированием разногласий, что может быть упущено при оценке, основанной на метках большинства. Примечательно, что, хотя рассуждения в стиле RLVR (обучение с подкреплением с проверяемыми вознаграждениями) в целом повышают производительность LLM, они ухудшают её в предсказании разногласий. Наши выводы подчеркивают критическую необходимость оценки и улучшения LLM-аннотаторов в моделировании разногласий. Код и данные доступны по адресу: https://github.com/EdisonNi-hku/Disagreement_Prediction.
English
Human annotation variation (i.e., annotation disagreements) is common in NLP
and often reflects important information such as task subjectivity and sample
ambiguity. While Large Language Models (LLMs) are increasingly used for
automatic annotation to reduce human effort, their evaluation often focuses on
predicting the majority-voted "ground truth" labels. It is still unclear,
however, whether these models also capture informative human annotation
variation. Our work addresses this gap by extensively evaluating LLMs' ability
to predict annotation disagreements without access to repeated human labels.
Our results show that LLMs struggle with modeling disagreements, which can be
overlooked by majority label-based evaluations. Notably, while RLVR-style
(Reinforcement learning with verifiable rewards) reasoning generally boosts LLM
performance, it degrades performance in disagreement prediction. Our findings
highlight the critical need for evaluating and improving LLM annotators in
disagreement modeling. Code and data at
https://github.com/EdisonNi-hku/Disagreement_Prediction.