¿Pueden los Modelos de Lenguaje de Gran Escala Capturar las Discrepancias de los Anotadores Humanos?
Can Large Language Models Capture Human Annotator Disagreements?
June 24, 2025
Autores: Jingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash
cs.AI
Resumen
La variación en la anotación humana (es decir, los desacuerdos en la anotación) es común en el Procesamiento del Lenguaje Natural (PLN) y a menudo refleja información importante, como la subjetividad de la tarea y la ambigüedad de las muestras. Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan cada vez más para la anotación automática con el fin de reducir el esfuerzo humano, su evaluación suele centrarse en predecir las etiquetas de "verdad fundamental" basadas en la mayoría de votos. Sin embargo, aún no está claro si estos modelos también capturan la variación informativa en la anotación humana. Nuestro trabajo aborda esta brecha evaluando exhaustivamente la capacidad de los LLMs para predecir desacuerdos en la anotación sin acceso a etiquetas humanas repetidas. Nuestros resultados muestran que los LLMs tienen dificultades para modelar desacuerdos, lo cual puede pasarse por alto en evaluaciones basadas en etiquetas mayoritarias. Cabe destacar que, aunque el razonamiento estilo RLVR (Aprendizaje por Refuerzo con Recompensas Verificables) generalmente mejora el rendimiento de los LLMs, degrada su desempeño en la predicción de desacuerdos. Nuestros hallazgos resaltan la necesidad crítica de evaluar y mejorar los anotadores basados en LLMs en el modelado de desacuerdos. Código y datos disponibles en https://github.com/EdisonNi-hku/Disagreement_Prediction.
English
Human annotation variation (i.e., annotation disagreements) is common in NLP
and often reflects important information such as task subjectivity and sample
ambiguity. While Large Language Models (LLMs) are increasingly used for
automatic annotation to reduce human effort, their evaluation often focuses on
predicting the majority-voted "ground truth" labels. It is still unclear,
however, whether these models also capture informative human annotation
variation. Our work addresses this gap by extensively evaluating LLMs' ability
to predict annotation disagreements without access to repeated human labels.
Our results show that LLMs struggle with modeling disagreements, which can be
overlooked by majority label-based evaluations. Notably, while RLVR-style
(Reinforcement learning with verifiable rewards) reasoning generally boosts LLM
performance, it degrades performance in disagreement prediction. Our findings
highlight the critical need for evaluating and improving LLM annotators in
disagreement modeling. Code and data at
https://github.com/EdisonNi-hku/Disagreement_Prediction.