Charakterisierung von Verzerrungen: Benchmarking großer Sprachmodelle in vereinfachtem versus traditionellem Chinesisch

papers.abstract

Während die Fähigkeiten von Large Language Models (LLMs) sowohl in vereinfachtem als auch in traditionellem Chinesisch untersucht wurden, ist noch unklar, ob LLMs unterschiedliche Leistungen zeigen, wenn sie in diesen beiden Varianten der chinesischen Schriftsprache angeregt werden. Dieses Verständnis ist entscheidend, da Unterschiede in der Qualität der LLM-Antworten repräsentative Schäden verstärken können, indem sie die verschiedenen kulturellen Kontexte, die vereinfachtem und traditionellem Chinesisch zugrunde liegen, ignorieren, und können nachgelagerte Schäden in LLM-gestützten Entscheidungsprozessen in Bereichen wie Bildung oder Einstellung verschärfen. Um potenzielle Leistungsunterschiede bei LLMs zu untersuchen, entwerfen wir zwei Benchmark-Aufgaben, die reale Szenarien widerspiegeln: die Wahl regionaler Begriffe (Anregung des LLM, ein beschriebenes Objekt zu benennen, das in Festlandchina und Taiwan unterschiedlich bezeichnet wird) und die Wahl regionaler Namen (Anregung des LLM, aus einer Liste von Namen in vereinfachtem und traditionellem Chinesisch auszuwählen, wen man einstellen soll). Für beide Aufgaben überprüfen wir die Leistung von 11 führenden kommerziellen LLM-Diensten und Open-Source-Modellen – darunter solche, die hauptsächlich auf Englisch, vereinfachtem Chinesisch oder traditionellem Chinesisch trainiert wurden. Unsere Analysen zeigen, dass Verzerrungen in den LLM-Antworten sowohl von der Aufgabe als auch von der Anregungssprache abhängen: Während die meisten LLMs in der Aufgabe zur Wahl regionaler Begriffe überproportional vereinfachtes Chinesisch bevorzugten, bevorzugten sie überraschenderweise traditionelle chinesische Namen in der Aufgabe zur Wahl regionaler Namen. Wir stellen fest, dass diese Unterschiede auf Unterschiede in der Repräsentation der Trainingsdaten, Präferenzen für Schriftzeichen und Tokenisierung von vereinfachtem und traditionellem Chinesisch zurückzuführen sein könnten. Diese Ergebnisse unterstreichen die Notwendigkeit einer weiteren Analyse von LLM-Verzerrungen; daher stellen wir einen Open-Source-Benchmark-Datensatz zur Verfügung, um reproduzierbare Bewertungen des zukünftigen Verhaltens von LLMs über chinesische Sprachvarianten hinweg zu fördern (https://github.com/brucelyu17/SC-TC-Bench).

English

While the capabilities of Large Language Models (LLMs) have been studied in both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit differential performance when prompted in these two variants of written Chinese. This understanding is critical, as disparities in the quality of LLM responses can perpetuate representational harms by ignoring the different cultural contexts underlying Simplified versus Traditional Chinese, and can exacerbate downstream harms in LLM-facilitated decision-making in domains such as education or hiring. To investigate potential LLM performance disparities, we design two benchmark tasks that reflect real-world scenarios: regional term choice (prompting the LLM to name a described item which is referred to differently in Mainland China and Taiwan), and regional name choice (prompting the LLM to choose who to hire from a list of names in both Simplified and Traditional Chinese). For both tasks, we audit the performance of 11 leading commercial LLM services and open-sourced models -- spanning those primarily trained on English, Simplified Chinese, or Traditional Chinese. Our analyses indicate that biases in LLM responses are dependent on both the task and prompting language: while most LLMs disproportionately favored Simplified Chinese responses in the regional term choice task, they surprisingly favored Traditional Chinese names in the regional name choice task. We find that these disparities may arise from differences in training data representation, written character preferences, and tokenization of Simplified and Traditional Chinese. These findings highlight the need for further analysis of LLM biases; as such, we provide an open-sourced benchmark dataset to foster reproducible evaluations of future LLM behavior across Chinese language variants (https://github.com/brucelyu17/SC-TC-Bench).

Charakterisierung von Verzerrungen: Benchmarking großer Sprachmodelle in vereinfachtem versus traditionellem Chinesisch

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

papers.abstract

Support