L'incertitude entraîne des changements de biais sociaux dans les grands modèles de langage quantifiés

Résumé

La quantification post-entraînement réduit le coût computationnel des grands modèles de langage mais modifie fondamentalement leurs biais sociaux d'une manière que les métriques agrégées ne parviennent pas à capturer. Nous présentons la première étude à grande échelle de 50 modèles quantifiés évalués sur PostTrainingBiasBench, un benchmark unifié de 13 ensembles de données de biais ouverts et fermés. Nous identifions un phénomène que nous appelons le retournement masqué des biais induit par la quantification, dans lequel jusqu'à 21 % des réponses basculent entre des états biaisés et non biaisés après quantification, malgré l'absence de changement dans les scores de biais agrégés. Ces basculements sont fortement influencés par l'incertitude du modèle, les réponses présentant une forte incertitude étant 3 à 11 fois plus susceptibles de changer que les réponses confiantes. L'intensité de la quantification amplifie cet effet, les modèles quantifiés en 4 bits présentant 4 à 6 fois plus de changements comportementaux que les modèles quantifiés en 8 bits. Fait crucial, ces changements créent des impacts asymétriques entre les groupes démographiques, où le biais peut s'aggraver jusqu'à 18,6 % pour certains groupes tout en s'améliorant de 14,1 % pour d'autres, produisant des résultats agrégés faussement neutres. Les modèles plus grands ne montrent aucun avantage de robustesse cohérent, et les changements spécifiques aux groupes varient de manière imprévisible selon les familles de modèles. Nos résultats démontrent que la compression altère fondamentalement les schémas de biais, nécessitant une évaluation et des interventions cruciales post-quantification pour garantir la fiabilité en pratique.

English

Post-training quantization reduces the computational cost of large language models but fundamentally alters their social biases in ways that aggregate metrics fail to capture. We present the first large-scale study of 50 quantized models evaluated on PostTrainingBiasBench, a unified benchmark of 13 closed- and open-ended bias datasets. We identify a phenomenon we term quantization-induced masked bias flipping, in which up to 21% of responses flip between biased and unbiased states after quantization, despite showing no change in aggregate bias scores. These flips are strongly driven by model uncertainty, where the responses with high uncertainty are 3-11x more likely to change than the confident ones. Quantization strength amplifies this effect, with 4-bit quantized models exhibiting 4-6x more behavioral changes than 8-bit quantized models. Critically, these changes create asymmetric impacts across demographic groups, where bias can worsen by up to 18.6% for some groups while improving by 14.1% for others, yielding misleadingly neutral aggregate outcomes. Larger models show no consistent robustness advantage, and group-specific shifts vary unpredictably across model families. Our findings demonstrate that compression fundamentally alters bias patterns, requiring crucial post-quantization evaluation and interventions to ensure reliability in practice.

L'incertitude entraîne des changements de biais sociaux dans les grands modèles de langage quantifiés

Uncertainty Drives Social Bias Changes in Quantized Large Language Models

Résumé

Support