Caractérisation des biais : Évaluation des modèles de langage de grande envergure en chinois simplifié versus chinois traditionnel
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
May 28, 2025
Auteurs: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke
cs.AI
Résumé
Bien que les capacités des modèles de langage de grande taille (LLMs) aient été étudiées en chinois simplifié et traditionnel, il reste incertain si ces modèles présentent des performances différentielles lorsqu'ils sont sollicités dans ces deux variantes écrites du chinois. Cette compréhension est cruciale, car des disparités dans la qualité des réponses des LLMs peuvent perpétuer des préjudices de représentation en ignorant les différents contextes culturels sous-jacents au chinois simplifié par rapport au traditionnel, et peuvent exacerber les préjudices en aval dans les processus décisionnels facilités par les LLMs dans des domaines tels que l'éducation ou le recrutement. Pour étudier les disparités potentielles de performance des LLMs, nous concevons deux tâches de référence reflétant des scénarios réels : le choix de termes régionaux (sollicitant le LLM pour nommer un objet décrit différemment en Chine continentale et à Taïwan), et le choix de noms régionaux (sollicitant le LLM pour choisir qui recruter parmi une liste de noms en chinois simplifié et traditionnel). Pour ces deux tâches, nous auditons les performances de 11 services commerciaux de LLMs et de modèles open-source — couvrant ceux principalement entraînés sur l'anglais, le chinois simplifié ou le traditionnel. Nos analyses indiquent que les biais dans les réponses des LLMs dépendent à la fois de la tâche et de la langue de sollicitation : tandis que la plupart des LLMs favorisaient de manière disproportionnée les réponses en chinois simplifié dans la tâche de choix de termes régionaux, ils favorisaient étonnamment les noms en chinois traditionnel dans la tâche de choix de noms régionaux. Nous constatons que ces disparités peuvent découler des différences dans la représentation des données d'entraînement, les préférences de caractères écrits, et la tokenisation du chinois simplifié et traditionnel. Ces résultats soulignent la nécessité d'une analyse approfondie des biais des LLMs ; à cet effet, nous fournissons un ensemble de données de référence open-source pour favoriser des évaluations reproductibles du comportement futur des LLMs à travers les variantes de la langue chinoise (https://github.com/brucelyu17/SC-TC-Bench).
English
While the capabilities of Large Language Models (LLMs) have been studied in
both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit
differential performance when prompted in these two variants of written
Chinese. This understanding is critical, as disparities in the quality of LLM
responses can perpetuate representational harms by ignoring the different
cultural contexts underlying Simplified versus Traditional Chinese, and can
exacerbate downstream harms in LLM-facilitated decision-making in domains such
as education or hiring. To investigate potential LLM performance disparities,
we design two benchmark tasks that reflect real-world scenarios: regional term
choice (prompting the LLM to name a described item which is referred to
differently in Mainland China and Taiwan), and regional name choice (prompting
the LLM to choose who to hire from a list of names in both Simplified and
Traditional Chinese). For both tasks, we audit the performance of 11 leading
commercial LLM services and open-sourced models -- spanning those primarily
trained on English, Simplified Chinese, or Traditional Chinese. Our analyses
indicate that biases in LLM responses are dependent on both the task and
prompting language: while most LLMs disproportionately favored Simplified
Chinese responses in the regional term choice task, they surprisingly favored
Traditional Chinese names in the regional name choice task. We find that these
disparities may arise from differences in training data representation, written
character preferences, and tokenization of Simplified and Traditional Chinese.
These findings highlight the need for further analysis of LLM biases; as such,
we provide an open-sourced benchmark dataset to foster reproducible evaluations
of future LLM behavior across Chinese language variants
(https://github.com/brucelyu17/SC-TC-Bench).Summary
AI-Generated Summary