Les grands modèles de langage peuvent-ils capturer les désaccords entre annotateurs humains ?
Can Large Language Models Capture Human Annotator Disagreements?
June 24, 2025
Auteurs: Jingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash
cs.AI
Résumé
La variation dans les annotations humaines (c'est-à-dire les désaccords d'annotation) est courante en traitement automatique des langues (TAL) et reflète souvent des informations importantes telles que la subjectivité de la tâche et l'ambiguïté des échantillons. Bien que les modèles de langage de grande taille (LLMs) soient de plus en plus utilisés pour l'annotation automatique afin de réduire l'effort humain, leur évaluation se concentre souvent sur la prédiction des étiquettes de "vérité terrain" déterminées par vote majoritaire. Cependant, il reste incertain si ces modèles capturent également la variation informative des annotations humaines. Notre travail comble cette lacune en évaluant de manière approfondie la capacité des LLMs à prédire les désaccords d'annotation sans accès à des annotations humaines répétées. Nos résultats montrent que les LLMs peinent à modéliser les désaccords, ce qui peut être négligé par les évaluations basées sur les étiquettes majoritaires. Notamment, bien que le raisonnement de type RLVR (Reinforcement Learning with Verifiable Rewards) améliore généralement les performances des LLMs, il dégrade la performance dans la prédiction des désaccords. Nos résultats soulignent la nécessité cruciale d'évaluer et d'améliorer les annotateurs LLMs dans la modélisation des désaccords. Code et données disponibles sur https://github.com/EdisonNi-hku/Disagreement_Prediction.
English
Human annotation variation (i.e., annotation disagreements) is common in NLP
and often reflects important information such as task subjectivity and sample
ambiguity. While Large Language Models (LLMs) are increasingly used for
automatic annotation to reduce human effort, their evaluation often focuses on
predicting the majority-voted "ground truth" labels. It is still unclear,
however, whether these models also capture informative human annotation
variation. Our work addresses this gap by extensively evaluating LLMs' ability
to predict annotation disagreements without access to repeated human labels.
Our results show that LLMs struggle with modeling disagreements, which can be
overlooked by majority label-based evaluations. Notably, while RLVR-style
(Reinforcement learning with verifiable rewards) reasoning generally boosts LLM
performance, it degrades performance in disagreement prediction. Our findings
highlight the critical need for evaluating and improving LLM annotators in
disagreement modeling. Code and data at
https://github.com/EdisonNi-hku/Disagreement_Prediction.