I Modelli Linguistici di Grandi Dimensioni Possono Catturare le Discrepanze tra Annotatori Umani?

Abstract

La variazione nelle annotazioni umane (cioè, i disaccordi nelle annotazioni) è comune nel NLP e spesso riflette informazioni importanti come la soggettività del compito e l'ambiguità dei campioni. Sebbene i Modelli Linguistici di Grande Dimensione (LLM) siano sempre più utilizzati per l'annotazione automatica al fine di ridurre lo sforzo umano, la loro valutazione si concentra spesso sulla previsione delle etichette "ground truth" determinate a maggioranza. Tuttavia, non è ancora chiaro se questi modelli siano in grado di catturare anche la variazione informativa nelle annotazioni umane. Il nostro lavoro affronta questa lacuna valutando estensivamente la capacità degli LLM di prevedere i disaccordi nelle annotazioni senza accesso a ripetute etichette umane. I nostri risultati mostrano che gli LLM hanno difficoltà nel modellare i disaccordi, che possono essere trascurati dalle valutazioni basate sulle etichette a maggioranza. In particolare, mentre il ragionamento in stile RLVR (Reinforcement learning with verifiable rewards) generalmente migliora le prestazioni degli LLM, esso peggiora le prestazioni nella previsione dei disaccordi. Le nostre scoperte evidenziano la necessità critica di valutare e migliorare gli annotatori LLM nella modellazione dei disaccordi. Codice e dati disponibili su https://github.com/EdisonNi-hku/Disagreement_Prediction.

English

Human annotation variation (i.e., annotation disagreements) is common in NLP and often reflects important information such as task subjectivity and sample ambiguity. While Large Language Models (LLMs) are increasingly used for automatic annotation to reduce human effort, their evaluation often focuses on predicting the majority-voted "ground truth" labels. It is still unclear, however, whether these models also capture informative human annotation variation. Our work addresses this gap by extensively evaluating LLMs' ability to predict annotation disagreements without access to repeated human labels. Our results show that LLMs struggle with modeling disagreements, which can be overlooked by majority label-based evaluations. Notably, while RLVR-style (Reinforcement learning with verifiable rewards) reasoning generally boosts LLM performance, it degrades performance in disagreement prediction. Our findings highlight the critical need for evaluating and improving LLM annotators in disagreement modeling. Code and data at https://github.com/EdisonNi-hku/Disagreement_Prediction.

I Modelli Linguistici di Grandi Dimensioni Possono Catturare le Discrepanze tra Annotatori Umani?

Can Large Language Models Capture Human Annotator Disagreements?

Abstract

Support