I Modelli Linguistici di Grandi Dimensioni Possono Catturare le Discrepanze tra Annotatori Umani?
Can Large Language Models Capture Human Annotator Disagreements?
June 24, 2025
Autori: Jingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash
cs.AI
Abstract
La variazione nelle annotazioni umane (cioè, i disaccordi nelle annotazioni) è comune nel NLP e spesso riflette informazioni importanti come la soggettività del compito e l'ambiguità dei campioni. Sebbene i Modelli Linguistici di Grande Dimensione (LLM) siano sempre più utilizzati per l'annotazione automatica al fine di ridurre lo sforzo umano, la loro valutazione si concentra spesso sulla previsione delle etichette "ground truth" determinate a maggioranza. Tuttavia, non è ancora chiaro se questi modelli siano in grado di catturare anche la variazione informativa nelle annotazioni umane. Il nostro lavoro affronta questa lacuna valutando estensivamente la capacità degli LLM di prevedere i disaccordi nelle annotazioni senza accesso a ripetute etichette umane. I nostri risultati mostrano che gli LLM hanno difficoltà nel modellare i disaccordi, che possono essere trascurati dalle valutazioni basate sulle etichette a maggioranza. In particolare, mentre il ragionamento in stile RLVR (Reinforcement learning with verifiable rewards) generalmente migliora le prestazioni degli LLM, esso peggiora le prestazioni nella previsione dei disaccordi. Le nostre scoperte evidenziano la necessità critica di valutare e migliorare gli annotatori LLM nella modellazione dei disaccordi. Codice e dati disponibili su https://github.com/EdisonNi-hku/Disagreement_Prediction.
English
Human annotation variation (i.e., annotation disagreements) is common in NLP
and often reflects important information such as task subjectivity and sample
ambiguity. While Large Language Models (LLMs) are increasingly used for
automatic annotation to reduce human effort, their evaluation often focuses on
predicting the majority-voted "ground truth" labels. It is still unclear,
however, whether these models also capture informative human annotation
variation. Our work addresses this gap by extensively evaluating LLMs' ability
to predict annotation disagreements without access to repeated human labels.
Our results show that LLMs struggle with modeling disagreements, which can be
overlooked by majority label-based evaluations. Notably, while RLVR-style
(Reinforcement learning with verifiable rewards) reasoning generally boosts LLM
performance, it degrades performance in disagreement prediction. Our findings
highlight the critical need for evaluating and improving LLM annotators in
disagreement modeling. Code and data at
https://github.com/EdisonNi-hku/Disagreement_Prediction.