Charakterisierung von Verzerrungen: Benchmarking großer Sprachmodelle in vereinfachtem versus traditionellem Chinesisch
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
May 28, 2025
Autoren: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke
cs.AI
Zusammenfassung
Während die Fähigkeiten von Large Language Models (LLMs) sowohl in vereinfachtem als auch in traditionellem Chinesisch untersucht wurden, ist noch unklar, ob LLMs unterschiedliche Leistungen zeigen, wenn sie in diesen beiden Varianten der chinesischen Schriftsprache angeregt werden. Dieses Verständnis ist entscheidend, da Unterschiede in der Qualität der LLM-Antworten repräsentative Schäden verstärken können, indem sie die verschiedenen kulturellen Kontexte, die vereinfachtem und traditionellem Chinesisch zugrunde liegen, ignorieren, und können nachgelagerte Schäden in LLM-gestützten Entscheidungsprozessen in Bereichen wie Bildung oder Einstellung verschärfen. Um potenzielle Leistungsunterschiede bei LLMs zu untersuchen, entwerfen wir zwei Benchmark-Aufgaben, die reale Szenarien widerspiegeln: die Wahl regionaler Begriffe (Anregung des LLM, ein beschriebenes Objekt zu benennen, das in Festlandchina und Taiwan unterschiedlich bezeichnet wird) und die Wahl regionaler Namen (Anregung des LLM, aus einer Liste von Namen in vereinfachtem und traditionellem Chinesisch auszuwählen, wen man einstellen soll). Für beide Aufgaben überprüfen wir die Leistung von 11 führenden kommerziellen LLM-Diensten und Open-Source-Modellen – darunter solche, die hauptsächlich auf Englisch, vereinfachtem Chinesisch oder traditionellem Chinesisch trainiert wurden. Unsere Analysen zeigen, dass Verzerrungen in den LLM-Antworten sowohl von der Aufgabe als auch von der Anregungssprache abhängen: Während die meisten LLMs in der Aufgabe zur Wahl regionaler Begriffe überproportional vereinfachtes Chinesisch bevorzugten, bevorzugten sie überraschenderweise traditionelle chinesische Namen in der Aufgabe zur Wahl regionaler Namen. Wir stellen fest, dass diese Unterschiede auf Unterschiede in der Repräsentation der Trainingsdaten, Präferenzen für Schriftzeichen und Tokenisierung von vereinfachtem und traditionellem Chinesisch zurückzuführen sein könnten. Diese Ergebnisse unterstreichen die Notwendigkeit einer weiteren Analyse von LLM-Verzerrungen; daher stellen wir einen Open-Source-Benchmark-Datensatz zur Verfügung, um reproduzierbare Bewertungen des zukünftigen Verhaltens von LLMs über chinesische Sprachvarianten hinweg zu fördern (https://github.com/brucelyu17/SC-TC-Bench).
English
While the capabilities of Large Language Models (LLMs) have been studied in
both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit
differential performance when prompted in these two variants of written
Chinese. This understanding is critical, as disparities in the quality of LLM
responses can perpetuate representational harms by ignoring the different
cultural contexts underlying Simplified versus Traditional Chinese, and can
exacerbate downstream harms in LLM-facilitated decision-making in domains such
as education or hiring. To investigate potential LLM performance disparities,
we design two benchmark tasks that reflect real-world scenarios: regional term
choice (prompting the LLM to name a described item which is referred to
differently in Mainland China and Taiwan), and regional name choice (prompting
the LLM to choose who to hire from a list of names in both Simplified and
Traditional Chinese). For both tasks, we audit the performance of 11 leading
commercial LLM services and open-sourced models -- spanning those primarily
trained on English, Simplified Chinese, or Traditional Chinese. Our analyses
indicate that biases in LLM responses are dependent on both the task and
prompting language: while most LLMs disproportionately favored Simplified
Chinese responses in the regional term choice task, they surprisingly favored
Traditional Chinese names in the regional name choice task. We find that these
disparities may arise from differences in training data representation, written
character preferences, and tokenization of Simplified and Traditional Chinese.
These findings highlight the need for further analysis of LLM biases; as such,
we provide an open-sourced benchmark dataset to foster reproducible evaluations
of future LLM behavior across Chinese language variants
(https://github.com/brucelyu17/SC-TC-Bench).Summary
AI-Generated Summary