Modelos de Linguagem de Grande Escala Podem Capturar Discordâncias entre Anotadores Humanos?
Can Large Language Models Capture Human Annotator Disagreements?
June 24, 2025
Autores: Jingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash
cs.AI
Resumo
A variação na anotação humana (ou seja, discordâncias na anotação) é comum em PLN e frequentemente reflete informações importantes, como a subjetividade da tarefa e a ambiguidade das amostras. Embora os Modelos de Linguagem de Grande Escala (LLMs) sejam cada vez mais utilizados para anotação automática com o objetivo de reduzir o esforço humano, sua avaliação geralmente se concentra na previsão dos rótulos de "verdade fundamental" determinados por votação majoritária. No entanto, ainda não está claro se esses modelos também capturam a variação informativa das anotações humanas. Nosso trabalho aborda essa lacuna avaliando extensivamente a capacidade dos LLMs de prever discordâncias de anotação sem acesso a rótulos humanos repetidos. Nossos resultados mostram que os LLMs têm dificuldade em modelar discordâncias, o que pode ser negligenciado por avaliações baseadas em rótulos majoritários. Notavelmente, embora o raciocínio no estilo RLVR (Reinforcement Learning with Verifiable Rewards) geralmente melhore o desempenho dos LLMs, ele degrada o desempenho na previsão de discordâncias. Nossas descobertas destacam a necessidade crítica de avaliar e melhorar os anotadores baseados em LLMs na modelagem de discordâncias. Código e dados disponíveis em https://github.com/EdisonNi-hku/Disagreement_Prediction.
English
Human annotation variation (i.e., annotation disagreements) is common in NLP
and often reflects important information such as task subjectivity and sample
ambiguity. While Large Language Models (LLMs) are increasingly used for
automatic annotation to reduce human effort, their evaluation often focuses on
predicting the majority-voted "ground truth" labels. It is still unclear,
however, whether these models also capture informative human annotation
variation. Our work addresses this gap by extensively evaluating LLMs' ability
to predict annotation disagreements without access to repeated human labels.
Our results show that LLMs struggle with modeling disagreements, which can be
overlooked by majority label-based evaluations. Notably, while RLVR-style
(Reinforcement learning with verifiable rewards) reasoning generally boosts LLM
performance, it degrades performance in disagreement prediction. Our findings
highlight the critical need for evaluating and improving LLM annotators in
disagreement modeling. Code and data at
https://github.com/EdisonNi-hku/Disagreement_Prediction.