Bias Karakteriseren: Benchmarking van Grote Taalmodellen in Vereenvoudigd versus Traditioneel Chinees
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
May 28, 2025
Auteurs: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke
cs.AI
Samenvatting
Hoewel de mogelijkheden van Large Language Models (LLMs) zijn bestudeerd in zowel Vereenvoudigd als Traditioneel Chinees, is het nog onduidelijk of LLMs verschillen in prestaties vertonen wanneer ze worden aangestuurd in deze twee varianten van geschreven Chinees. Dit inzicht is cruciaal, aangezien verschillen in de kwaliteit van LLM-reacties representatieve schade kunnen veroorzaken door de verschillende culturele contexten achter Vereenvoudigd versus Traditioneel Chinees te negeren, en kunnen leiden tot verdere schade in LLM-gestuurde besluitvorming in domeinen zoals onderwijs of werving. Om mogelijke prestatieverschillen van LLMs te onderzoeken, ontwerpen we twee benchmarktaken die realistische scenario's weerspiegelen: regionale termkeuze (waarbij de LLM wordt gevraagd een beschreven item te benoemen dat anders wordt aangeduid in het vasteland van China en Taiwan), en regionale naamkeuze (waarbij de LLM wordt gevraagd te kiezen wie in dienst te nemen uit een lijst van namen in zowel Vereenvoudigd als Traditioneel Chinees). Voor beide taken evalueren we de prestaties van 11 toonaangevende commerciële LLM-diensten en open-source modellen – variërend van modellen die voornamelijk zijn getraind op Engels, Vereenvoudigd Chinees of Traditioneel Chinees. Onze analyses geven aan dat vooroordelen in LLM-reacties afhankelijk zijn van zowel de taak als de aansturende taal: terwijl de meeste LLMs onevenredig vaak kozen voor Vereenvoudigd Chinese antwoorden in de regionale termkeuzetaak, kozen ze verrassend vaak voor Traditioneel Chinese namen in de regionale naamkeuzetaak. We constateren dat deze verschillen kunnen voortkomen uit verschillen in de representatie van trainingsdata, voorkeuren voor geschreven karakters, en tokenisatie van Vereenvoudigd en Traditioneel Chinees. Deze bevindingen benadrukken de noodzaak voor verdere analyse van LLM-vooroordelen; daarom bieden we een open-source benchmarkdataset om reproduceerbare evaluaties van toekomstig LLM-gedrag over Chinese taalvarianten te bevorderen (https://github.com/brucelyu17/SC-TC-Bench).
English
While the capabilities of Large Language Models (LLMs) have been studied in
both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit
differential performance when prompted in these two variants of written
Chinese. This understanding is critical, as disparities in the quality of LLM
responses can perpetuate representational harms by ignoring the different
cultural contexts underlying Simplified versus Traditional Chinese, and can
exacerbate downstream harms in LLM-facilitated decision-making in domains such
as education or hiring. To investigate potential LLM performance disparities,
we design two benchmark tasks that reflect real-world scenarios: regional term
choice (prompting the LLM to name a described item which is referred to
differently in Mainland China and Taiwan), and regional name choice (prompting
the LLM to choose who to hire from a list of names in both Simplified and
Traditional Chinese). For both tasks, we audit the performance of 11 leading
commercial LLM services and open-sourced models -- spanning those primarily
trained on English, Simplified Chinese, or Traditional Chinese. Our analyses
indicate that biases in LLM responses are dependent on both the task and
prompting language: while most LLMs disproportionately favored Simplified
Chinese responses in the regional term choice task, they surprisingly favored
Traditional Chinese names in the regional name choice task. We find that these
disparities may arise from differences in training data representation, written
character preferences, and tokenization of Simplified and Traditional Chinese.
These findings highlight the need for further analysis of LLM biases; as such,
we provide an open-sourced benchmark dataset to foster reproducible evaluations
of future LLM behavior across Chinese language variants
(https://github.com/brucelyu17/SC-TC-Bench).