Caratterizzazione del Bias: Benchmarking dei Modelli Linguistici di Grande Scala in Cinese Semplificato rispetto a quello Tradizionale
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
May 28, 2025
Autori: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke
cs.AI
Abstract
Sebbene le capacità dei Large Language Models (LLM) siano state studiate sia in cinese semplificato che tradizionale, non è ancora chiaro se gli LLM mostrino prestazioni differenziate quando sollecitati in queste due varianti di cinese scritto. Questa comprensione è fondamentale, poiché le disparità nella qualità delle risposte degli LLM possono perpetuare danni rappresentativi ignorando i diversi contesti culturali sottostanti al cinese semplificato rispetto a quello tradizionale, e possono esacerbare danni a valle nei processi decisionali facilitati dagli LLM in domini come l'istruzione o l'assunzione di personale. Per indagare potenziali disparità nelle prestazioni degli LLM, progettiamo due task di benchmark che riflettono scenari reali: la scelta di termini regionali (sollecitando l'LLM a nominare un oggetto descritto che viene indicato diversamente in Cina continentale e Taiwan) e la scelta di nomi regionali (sollecitando l'LLM a scegliere chi assumere da un elenco di nomi sia in cinese semplificato che tradizionale). Per entrambi i task, analizziamo le prestazioni di 11 principali servizi LLM commerciali e modelli open-source, che spaziano da quelli addestrati principalmente in inglese, cinese semplificato o tradizionale. Le nostre analisi indicano che i bias nelle risposte degli LLM dipendono sia dal task che dalla lingua di sollecitazione: mentre la maggior parte degli LLM ha favorito in modo sproporzionato risposte in cinese semplificato nel task di scelta dei termini regionali, ha sorprendentemente favorito nomi in cinese tradizionale nel task di scelta dei nomi regionali. Troviamo che queste disparità possono derivare da differenze nella rappresentazione dei dati di addestramento, nelle preferenze dei caratteri scritti e nella tokenizzazione del cinese semplificato e tradizionale. Questi risultati evidenziano la necessità di ulteriori analisi sui bias degli LLM; pertanto, forniamo un dataset di benchmark open-source per favorire valutazioni riproducibili del comportamento futuro degli LLM tra le varianti della lingua cinese (https://github.com/brucelyu17/SC-TC-Bench).
English
While the capabilities of Large Language Models (LLMs) have been studied in
both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit
differential performance when prompted in these two variants of written
Chinese. This understanding is critical, as disparities in the quality of LLM
responses can perpetuate representational harms by ignoring the different
cultural contexts underlying Simplified versus Traditional Chinese, and can
exacerbate downstream harms in LLM-facilitated decision-making in domains such
as education or hiring. To investigate potential LLM performance disparities,
we design two benchmark tasks that reflect real-world scenarios: regional term
choice (prompting the LLM to name a described item which is referred to
differently in Mainland China and Taiwan), and regional name choice (prompting
the LLM to choose who to hire from a list of names in both Simplified and
Traditional Chinese). For both tasks, we audit the performance of 11 leading
commercial LLM services and open-sourced models -- spanning those primarily
trained on English, Simplified Chinese, or Traditional Chinese. Our analyses
indicate that biases in LLM responses are dependent on both the task and
prompting language: while most LLMs disproportionately favored Simplified
Chinese responses in the regional term choice task, they surprisingly favored
Traditional Chinese names in the regional name choice task. We find that these
disparities may arise from differences in training data representation, written
character preferences, and tokenization of Simplified and Traditional Chinese.
These findings highlight the need for further analysis of LLM biases; as such,
we provide an open-sourced benchmark dataset to foster reproducible evaluations
of future LLM behavior across Chinese language variants
(https://github.com/brucelyu17/SC-TC-Bench).