La incertidumbre impulsa cambios en el sesgo social en modelos de lenguaje cuantizados a gran escala

Resumen

La cuantización posterior al entrenamiento reduce el coste computacional de los modelos lingüísticos grandes, pero altera fundamentalmente sus sesgos sociales de formas que las métricas agregadas no logran capturar. Presentamos el primer estudio a gran escala de 50 modelos cuantizados evaluados en PostTrainingBiasBench, un benchmark unificado de 13 conjuntos de datos de sesgo de respuesta cerrada y abierta. Identificamos un fenómeno que denominamos *inversión del sesgo enmascarado inducida por cuantización*, en el que hasta un 21% de las respuestas cambian entre estados sesgados y no sesgados tras la cuantización, a pesar de no mostrar cambios en las puntuaciones agregadas de sesgo. Estas inversiones están fuertemente impulsadas por la incertidumbre del modelo, donde las respuestas con alta incertidumbre tienen entre 3 y 11 veces más probabilidades de cambiar que las respuestas confiadas. La intensidad de la cuantización amplifica este efecto, con modelos cuantizados a 4 bits que exhiben entre 4 y 6 veces más cambios conductuales que los modelos cuantizados a 8 bits. Críticamente, estos cambios crean impactos asimétricos entre grupos demográficos, donde el sesgo puede empeorar hasta en un 18,6% para algunos grupos mientras mejora hasta en un 14,1% para otros, produciendo resultados agregados engañosamente neutrales. Los modelos más grandes no muestran una ventaja de robustez consistente, y los cambios específicos de grupo varían de forma impredecible entre familias de modelos. Nuestros hallazgos demuestran que la compresión altera fundamentalmente los patrones de sesgo, requiriendo una evaluación e intervenciones cruciales posteriores a la cuantización para garantizar la fiabilidad en la práctica.

English

Post-training quantization reduces the computational cost of large language models but fundamentally alters their social biases in ways that aggregate metrics fail to capture. We present the first large-scale study of 50 quantized models evaluated on PostTrainingBiasBench, a unified benchmark of 13 closed- and open-ended bias datasets. We identify a phenomenon we term quantization-induced masked bias flipping, in which up to 21% of responses flip between biased and unbiased states after quantization, despite showing no change in aggregate bias scores. These flips are strongly driven by model uncertainty, where the responses with high uncertainty are 3-11x more likely to change than the confident ones. Quantization strength amplifies this effect, with 4-bit quantized models exhibiting 4-6x more behavioral changes than 8-bit quantized models. Critically, these changes create asymmetric impacts across demographic groups, where bias can worsen by up to 18.6% for some groups while improving by 14.1% for others, yielding misleadingly neutral aggregate outcomes. Larger models show no consistent robustness advantage, and group-specific shifts vary unpredictably across model families. Our findings demonstrate that compression fundamentally alters bias patterns, requiring crucial post-quantization evaluation and interventions to ensure reliability in practice.