Kunnen grote taalmodellen meningsverschillen tussen menselijke annotatoren vastleggen?
Can Large Language Models Capture Human Annotator Disagreements?
June 24, 2025
Auteurs: Jingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash
cs.AI
Samenvatting
Variatie in menselijke annotaties (d.w.z. annotatieonenigheid) komt vaak voor in NLP en weerspiegelt vaak belangrijke informatie zoals de subjectiviteit van de taak en de ambiguïteit van de voorbeelden. Hoewel grote taalmmodellen (LLMs) steeds vaker worden gebruikt voor automatische annotatie om menselijke inspanning te verminderen, richt hun evaluatie zich vaak op het voorspellen van de meerderheidsgestemde "grondwaarheid"-labels. Het is echter nog onduidelijk of deze modellen ook de informatieve variatie in menselijke annotaties vastleggen. Ons werk behandelt deze leemte door uitgebreid te evalueren in hoeverre LLMs annotatieonenigheid kunnen voorspellen zonder toegang tot herhaalde menselijke labels. Onze resultaten laten zien dat LLMs moeite hebben met het modelleren van onenigheid, wat over het hoofd kan worden gezien bij evaluaties op basis van meerderheidslabels. Opvallend is dat, hoewel RLVR-stijl (Reinforcement learning met verifieerbare beloningen) redeneren over het algemeen de prestaties van LLMs verbetert, het de prestaties bij het voorspellen van onenigheid verslechtert. Onze bevindingen benadrukken de cruciale noodzaak om LLM-annotators te evalueren en te verbeteren in het modelleren van onenigheid. Code en gegevens zijn beschikbaar op https://github.com/EdisonNi-hku/Disagreement_Prediction.
English
Human annotation variation (i.e., annotation disagreements) is common in NLP
and often reflects important information such as task subjectivity and sample
ambiguity. While Large Language Models (LLMs) are increasingly used for
automatic annotation to reduce human effort, their evaluation often focuses on
predicting the majority-voted "ground truth" labels. It is still unclear,
however, whether these models also capture informative human annotation
variation. Our work addresses this gap by extensively evaluating LLMs' ability
to predict annotation disagreements without access to repeated human labels.
Our results show that LLMs struggle with modeling disagreements, which can be
overlooked by majority label-based evaluations. Notably, while RLVR-style
(Reinforcement learning with verifiable rewards) reasoning generally boosts LLM
performance, it degrades performance in disagreement prediction. Our findings
highlight the critical need for evaluating and improving LLM annotators in
disagreement modeling. Code and data at
https://github.com/EdisonNi-hku/Disagreement_Prediction.