Неопределенность как драйвер изменений социальных предубеждений в квантованных больших языковых моделях
Uncertainty Drives Social Bias Changes in Quantized Large Language Models
February 5, 2026
Авторы: Stanley Z. Hua, Sanae Lotfi, Irene Y. Chen
cs.AI
Аннотация
Посттренировочная квантификация снижает вычислительную стоимость больших языковых моделей, но фундаментально изменяет их социальные смещения таким образом, что агрегированные метрики не способны это уловить. Мы представляем первое масштабное исследование 50 квантифицированных моделей, оцененных на PostTrainingBiasBench — унифицированном бенчмарке, включающем 13 наборов данных для оценки смещений в закрытых и открытых задачах. Мы выявляем феномен, названный нами *инвертированием замаскированного смещения при квантификации*, при котором до 21% ответов переключаются между смещенным и несмещенным состояниями после квантификации, несмотря на отсутствие изменений в агрегированных показателях смещения. Эти переключения сильно обусловлены неопределенностью модели: ответы с высокой неопределенностью в 3–11 раз чаще изменяются, чем уверенные. Степень квантификации усиливает этот эффект: модели с 4-битной квантификацией демонстрируют в 4–6 раз больше поведенческих изменений, чем 8-битные. Критически важно, что эти изменения создают асимметричное влияние на различные демографические группы — смещение может усиливаться до 18,6% для одних групп и улучшаться на 14,1% для других, что приводит к обманчиво нейтральным агрегированным результатам. Бóльшие модели не проявляют последовательного преимущества в устойчивости, а группоспецифичные сдвиги непредсказуемо варьируются между семействами моделей. Наши результаты демонстрируют, что сжатие фундаментально меняет паттерны смещений, что требует обязательной постквантификационной оценки и вмешательств для обеспечения надежности на практике.
English
Post-training quantization reduces the computational cost of large language models but fundamentally alters their social biases in ways that aggregate metrics fail to capture. We present the first large-scale study of 50 quantized models evaluated on PostTrainingBiasBench, a unified benchmark of 13 closed- and open-ended bias datasets. We identify a phenomenon we term quantization-induced masked bias flipping, in which up to 21% of responses flip between biased and unbiased states after quantization, despite showing no change in aggregate bias scores. These flips are strongly driven by model uncertainty, where the responses with high uncertainty are 3-11x more likely to change than the confident ones. Quantization strength amplifies this effect, with 4-bit quantized models exhibiting 4-6x more behavioral changes than 8-bit quantized models. Critically, these changes create asymmetric impacts across demographic groups, where bias can worsen by up to 18.6% for some groups while improving by 14.1% for others, yielding misleadingly neutral aggregate outcomes. Larger models show no consistent robustness advantage, and group-specific shifts vary unpredictably across model families. Our findings demonstrate that compression fundamentally alters bias patterns, requiring crucial post-quantization evaluation and interventions to ensure reliability in practice.