L'Incertezza Guida i Cambiamenti del Pregiudizio Sociale nei Modelli Linguistici di Grande Dimensione Quantizzati

Abstract

La quantizzazione post-addestramento riduce il costo computazionale dei grandi modelli linguistici, ma altera fondamentalmente i loro pregiudizi sociali in modi che le metriche aggregate non riescono a cogliere. Presentiamo il primo studio su larga scala di 50 modelli quantizzati valutati su PostTrainingBiasBench, un benchmark unificato di 13 dataset di bias a risposta chiusa e aperta. Identifichiamo un fenomeno che definiamo inversione mascherata del bias indotta dalla quantizzazione, in cui fino al 21% delle risposte inverte il proprio stato tra bias e assenza di bias dopo la quantizzazione, nonostante non mostri alcun cambiamento nei punteggi aggregati di bias. Queste inversioni sono fortemente guidate dall'incertezza del modello, in cui le risposte con alta incertezza hanno una probabilità di cambiare da 3 a 11 volte superiore rispetto a quelle confidenti. L'intensità della quantizzazione amplifica questo effetto, con modelli quantizzati a 4 bit che mostrano da 4 a 6 volte più cambiamenti comportamentali rispetto ai modelli quantizzati a 8 bit. Criticamente, questi cambiamenti creano impatti asimmetrici tra i gruppi demografici, dove il bias può peggiorare fino al 18,6% per alcuni gruppi mentre migliora fino al 14,1% per altri, producendo risultati aggregate ingannevolmente neutri. I modelli più grandi non mostrano un vantaggio di robustezza consistente, e gli spostamenti specifici per gruppo variano in modo imprevedibile tra le famiglie di modelli. I nostri risultati dimostrano che la compressione altera fondamentalmente i modelli di bias, richiedendo una cruciale valutazione e interventi post-quantizzazione per garantire l'affidabilità nella pratica.

English

Post-training quantization reduces the computational cost of large language models but fundamentally alters their social biases in ways that aggregate metrics fail to capture. We present the first large-scale study of 50 quantized models evaluated on PostTrainingBiasBench, a unified benchmark of 13 closed- and open-ended bias datasets. We identify a phenomenon we term quantization-induced masked bias flipping, in which up to 21% of responses flip between biased and unbiased states after quantization, despite showing no change in aggregate bias scores. These flips are strongly driven by model uncertainty, where the responses with high uncertainty are 3-11x more likely to change than the confident ones. Quantization strength amplifies this effect, with 4-bit quantized models exhibiting 4-6x more behavioral changes than 8-bit quantized models. Critically, these changes create asymmetric impacts across demographic groups, where bias can worsen by up to 18.6% for some groups while improving by 14.1% for others, yielding misleadingly neutral aggregate outcomes. Larger models show no consistent robustness advantage, and group-specific shifts vary unpredictably across model families. Our findings demonstrate that compression fundamentally alters bias patterns, requiring crucial post-quantization evaluation and interventions to ensure reliability in practice.

L'Incertezza Guida i Cambiamenti del Pregiudizio Sociale nei Modelli Linguistici di Grande Dimensione Quantizzati

Uncertainty Drives Social Bias Changes in Quantized Large Language Models

Abstract

Support