StylisticBias : quelques indices visuels humains entraînent la plupart des biais sociaux dans les MLLMs

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) sont de plus en plus déployés dans des contextes ayant des conséquences importantes pour les individus et la société, mais les indices visuels qui influencent la manière dont ces modèles jugent les personnes restent mal compris. Les travaux antérieurs comparent souvent différents (groupes d')individus, ce qui rend difficile la distinction entre les effets liés à l'apparence et ceux liés à l'identité. Nous présentons StylisticBias, un banc d'essai contrôlé pour évaluer les biais sociaux au niveau des attributs dans les MLLMs. Nous générons 500 visages de base photoréalistes et créons environ 50 variations mono-attribut par visage, produisant ainsi environ 25 000 images. Cette conception maintient l'identité fixe et modifie un attribut visuel à la fois, ce qui permet de mesurer comment des indices spécifiques modifient les jugements du modèle. Nous évaluons six MLLMs sur 25 scénarios binaires de jugement social. Nous constatons que l'âge et le type de corps dominent les effets au niveau de l'identité, tandis que le style vestimentaire et d'autres indices visuels produisent les plus grands changements au niveau des attributs. Nous observons également qu'environ 15 attributs expliquent près de 80 % de la variation totale, montrant que le biais est concentré dans un petit ensemble d'indices visuels. La sensibilité est la plus forte pour les jugements sémantiquement alignés sur l'apparence, en particulier les jugements socio-économiques et liés au style. Nous publions StylisticBias comme un banc d'essai pour l'évaluation fine des biais dans les modèles multimodaux. Code et ensemble de données : https://github.com/timo-cavelius/StylisticBias et https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.

English

Multimodal large language models (MLLMs) are increasingly deployed in personally and societally consequential settings, yet the visual cues that shape how these models judge people remain poorly understood. Prior work often compares different (groups of) individuals, making it difficult to separate appearance effects from identity differences. We introduce StylisticBias, a controlled benchmark for evaluating attribute-level social bias in MLLMs. We generate 500 photorealistic base faces and create about 50 single-attribute variations per face, producing about 25K images. This design keeps identity fixed and changes one visual attribute at a time. It lets us measure how specific cues shift model judgments. We evaluate six MLLMs across 25 binary social judgment scenarios. We find that age and body type dominate identity-level effects, while fashion style and other visual cues drive the largest attribute-level shifts. We further find that about 15 attributes account for nearly 80\% of the total variation, showing that bias is concentrated in a small set of visual cues. Sensitivity is strongest in judgments that are semantically aligned with appearance, especially socioeconomic and style-related judgments. We release StylisticBias as a benchmark for fine-grained bias evaluation in multimodal models. Code and dataset: https://github.com/timo-cavelius/StylisticBias and https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.