¿Pueden los Modelos de Lenguaje de Gran Escala Capturar las Discrepancias de los Anotadores Humanos?

Resumen

La variación en la anotación humana (es decir, los desacuerdos en la anotación) es común en el Procesamiento del Lenguaje Natural (PLN) y a menudo refleja información importante, como la subjetividad de la tarea y la ambigüedad de las muestras. Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan cada vez más para la anotación automática con el fin de reducir el esfuerzo humano, su evaluación suele centrarse en predecir las etiquetas de "verdad fundamental" basadas en la mayoría de votos. Sin embargo, aún no está claro si estos modelos también capturan la variación informativa en la anotación humana. Nuestro trabajo aborda esta brecha evaluando exhaustivamente la capacidad de los LLMs para predecir desacuerdos en la anotación sin acceso a etiquetas humanas repetidas. Nuestros resultados muestran que los LLMs tienen dificultades para modelar desacuerdos, lo cual puede pasarse por alto en evaluaciones basadas en etiquetas mayoritarias. Cabe destacar que, aunque el razonamiento estilo RLVR (Aprendizaje por Refuerzo con Recompensas Verificables) generalmente mejora el rendimiento de los LLMs, degrada su desempeño en la predicción de desacuerdos. Nuestros hallazgos resaltan la necesidad crítica de evaluar y mejorar los anotadores basados en LLMs en el modelado de desacuerdos. Código y datos disponibles en https://github.com/EdisonNi-hku/Disagreement_Prediction.

English

Human annotation variation (i.e., annotation disagreements) is common in NLP and often reflects important information such as task subjectivity and sample ambiguity. While Large Language Models (LLMs) are increasingly used for automatic annotation to reduce human effort, their evaluation often focuses on predicting the majority-voted "ground truth" labels. It is still unclear, however, whether these models also capture informative human annotation variation. Our work addresses this gap by extensively evaluating LLMs' ability to predict annotation disagreements without access to repeated human labels. Our results show that LLMs struggle with modeling disagreements, which can be overlooked by majority label-based evaluations. Notably, while RLVR-style (Reinforcement learning with verifiable rewards) reasoning generally boosts LLM performance, it degrades performance in disagreement prediction. Our findings highlight the critical need for evaluating and improving LLM annotators in disagreement modeling. Code and data at https://github.com/EdisonNi-hku/Disagreement_Prediction.

¿Pueden los Modelos de Lenguaje de Gran Escala Capturar las Discrepancias de los Anotadores Humanos?

Can Large Language Models Capture Human Annotator Disagreements?

Resumen

Support