ChatPaper.aiChatPaper

Mitigazione del Bias di Lunghezza delle Etichette nei Grandi Modelli Linguistici

Mitigating Label Length Bias in Large Language Models

November 18, 2025
Autori: Mario Sanz-Guerrero, Katharina von der Wense
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono potenti apprendisti in contesti zero-shot e few-shot. Tuttavia, quando effettuano previsioni su un insieme di opzioni candidate, gli LLM soffrono di bias delle etichette, e i metodi di calibrazione esistenti trascurano i bias derivanti da etichette di classe composte da token multipli. Affrontiamo un problema che chiamiamo bias della lunghezza dell'etichetta, dove etichette di lunghezze diverse vengono trattate in modo incoerente, anche dopo la normale normalizzazione della lunghezza. Per mitigarlo, proponiamo la calibrazione contestuale normalizzata (NCC), un metodo efficace che normalizza e calibra le previsioni a livello di etichetta completa. NCC raggiunge miglioramenti statisticamente significativi rispetto agli approcci precedenti su più dataset e modelli, con guadagni fino al 10% di F1. Inoltre, NCC estende la mitigazione del bias a compiti più ampi come la risposta a domande a scelta multipla. La nostra analisi mostra che, se combinata con l'apprendimento in contesto, NCC è meno sensibile alla selezione degli esempi few-shot, richiede meno esempi per prestazioni competitive e produce stime di confidenza più affidabili. Questi risultati evidenziano l'importanza di mitigare i bias a livello di etichetta completa per migliorare le prestazioni e la robustezza dei metodi basati su LLM, specialmente in applicazioni del mondo reale dove le etichette di classe sono naturalmente composte da più token.
English
Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.
PDF62December 1, 2025