Характеристика смещения: сравнительный анализ крупных языковых моделей на упрощённом и традиционном китайском
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
May 28, 2025
Авторы: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke
cs.AI
Аннотация
Хотя возможности крупных языковых моделей (LLM) изучались как для упрощённого, так и для традиционного китайского письма, до сих пор неясно, демонстрируют ли LLM различающуюся производительность при запросах на этих двух вариантах письменного китайского языка. Это понимание крайне важно, поскольку различия в качестве ответов LLM могут усугублять репрезентационные проблемы, игнорируя различные культурные контексты, лежащие в основе упрощённого и традиционного китайского, а также усиливать негативные последствия в процессах принятия решений, опосредованных LLM, в таких областях, как образование или найм. Для исследования потенциальных различий в производительности LLM мы разработали два тестовых задания, отражающих реальные сценарии: выбор регионального термина (запрос к LLM назвать описанный объект, который по-разному именуется в материковом Китае и на Тайване) и выбор регионального имени (запрос к LLM выбрать кандидата для найма из списка имён как на упрощённом, так и на традиционном китайском). Для обоих заданий мы провели аудит производительности 11 ведущих коммерческих LLM-сервисов и моделей с открытым исходным кодом — включая те, которые в основном обучались на английском, упрощённом или традиционном китайском. Наши анализы показывают, что предвзятость в ответах LLM зависит как от задачи, так и от языка запроса: в то время как большинство LLM непропорционально часто отдавали предпочтение ответам на упрощённом китайском в задаче выбора регионального термина, они, что удивительно, чаще выбирали имена на традиционном китайском в задаче выбора регионального имени. Мы обнаружили, что эти различия могут возникать из-за разницы в представлении обучающих данных, предпочтениях в написании символов и токенизации упрощённого и традиционного китайского. Эти результаты подчеркивают необходимость дальнейшего анализа предвзятости LLM; в связи с этим мы предоставляем открытый набор тестовых данных для воспроизводимой оценки поведения будущих LLM в различных вариантах китайского языка (https://github.com/brucelyu17/SC-TC-Bench).
English
While the capabilities of Large Language Models (LLMs) have been studied in
both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit
differential performance when prompted in these two variants of written
Chinese. This understanding is critical, as disparities in the quality of LLM
responses can perpetuate representational harms by ignoring the different
cultural contexts underlying Simplified versus Traditional Chinese, and can
exacerbate downstream harms in LLM-facilitated decision-making in domains such
as education or hiring. To investigate potential LLM performance disparities,
we design two benchmark tasks that reflect real-world scenarios: regional term
choice (prompting the LLM to name a described item which is referred to
differently in Mainland China and Taiwan), and regional name choice (prompting
the LLM to choose who to hire from a list of names in both Simplified and
Traditional Chinese). For both tasks, we audit the performance of 11 leading
commercial LLM services and open-sourced models -- spanning those primarily
trained on English, Simplified Chinese, or Traditional Chinese. Our analyses
indicate that biases in LLM responses are dependent on both the task and
prompting language: while most LLMs disproportionately favored Simplified
Chinese responses in the regional term choice task, they surprisingly favored
Traditional Chinese names in the regional name choice task. We find that these
disparities may arise from differences in training data representation, written
character preferences, and tokenization of Simplified and Traditional Chinese.
These findings highlight the need for further analysis of LLM biases; as such,
we provide an open-sourced benchmark dataset to foster reproducible evaluations
of future LLM behavior across Chinese language variants
(https://github.com/brucelyu17/SC-TC-Bench).Summary
AI-Generated Summary