Onzekerheid drijft veranderingen in sociale vooroordelen in gekwantiseerde grote taalmodellen

Samenvatting

Post-training-kwantisering vermindert de rekenkosten van grote taalmodel(len), maar verandert fundamenteel hun sociale vooroordelen op manieren die aggregerende metrieken niet kunnen vastleggen. Wij presenteren de eerste grootschalige studie van 50 gekwantiseerde modellen, geëvalueerd op PostTrainingBiasBench, een uniforme benchmark met 13 bias-datasets voor gesloten en open vragen. Wij identificeren een fenomeen dat wij *kwantisering-geïnduceerde gemaskeerde bias-omkering* noemen, waarbij tot 21% van de antwoorden omslaat tussen bevooroordeelde en onbevooroordeelde toestanden na kwantisering, ondanks dat er geen verandering in de geaggregeerde bias-scores zichtbaar is. Deze omslagen worden sterk gedreven door modelonzekerheid, waarbij antwoorden met een hoge onzekerheid 3-11 keer meer kans hebben om te veranderen dan de zelfverzekerde antwoorden. De kwantiseringssterkte versterkt dit effect, waarbij 4-bits gekwantiseerde modellen 4-6 keer meer gedragsveranderingen vertonen dan 8-bits gekwantiseerde modellen. Cruciaal is dat deze veranderingen asymmetrische effecten creëren across demografische groepen, waarbij de bias voor sommige groepen met tot 18,6% kan verslechteren, terwijl deze voor andere met 14,1% verbetert, wat misleidend neutrale geaggregeerde uitkomsten oplevert. Grotere modellen tonen geen consistent robuustheidsvoordeel, en groepsspecifieke verschuivingen variëren onvoorspelbaar across modelfamilies. Onze bevindingen tonen aan dat compressie bias-patronen fundamenteel verandert, wat cruciale evaluatie en interventies na kwantisering vereist om de betrouwbaarheid in de praktijk te waarborgen.

English

Post-training quantization reduces the computational cost of large language models but fundamentally alters their social biases in ways that aggregate metrics fail to capture. We present the first large-scale study of 50 quantized models evaluated on PostTrainingBiasBench, a unified benchmark of 13 closed- and open-ended bias datasets. We identify a phenomenon we term quantization-induced masked bias flipping, in which up to 21% of responses flip between biased and unbiased states after quantization, despite showing no change in aggregate bias scores. These flips are strongly driven by model uncertainty, where the responses with high uncertainty are 3-11x more likely to change than the confident ones. Quantization strength amplifies this effect, with 4-bit quantized models exhibiting 4-6x more behavioral changes than 8-bit quantized models. Critically, these changes create asymmetric impacts across demographic groups, where bias can worsen by up to 18.6% for some groups while improving by 14.1% for others, yielding misleadingly neutral aggregate outcomes. Larger models show no consistent robustness advantage, and group-specific shifts vary unpredictably across model families. Our findings demonstrate that compression fundamentally alters bias patterns, requiring crucial post-quantization evaluation and interventions to ensure reliability in practice.

Onzekerheid drijft veranderingen in sociale vooroordelen in gekwantiseerde grote taalmodellen

Uncertainty Drives Social Bias Changes in Quantized Large Language Models

Samenvatting

Support