ChatPaper.aiChatPaper

Caracterizando o Viés: Avaliando Modelos de Linguagem de Grande Escala em Chinês Simplificado versus Tradicional

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

May 28, 2025
Autores: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke
cs.AI

Resumo

Embora as capacidades dos Modelos de Linguagem de Grande Escala (LLMs) tenham sido estudadas tanto em Chinês Simplificado quanto em Chinês Tradicional, ainda não está claro se os LLMs exibem desempenho diferenciado quando solicitados nessas duas variantes da escrita chinesa. Esse entendimento é crucial, já que disparidades na qualidade das respostas dos LLMs podem perpetuar danos representacionais ao ignorar os diferentes contextos culturais subjacentes ao Chinês Simplificado versus o Chinês Tradicional, e podem exacerbar danos subsequentes na tomada de decisão facilitada por LLMs em domínios como educação ou contratação. Para investigar possíveis disparidades de desempenho dos LLMs, projetamos duas tarefas de benchmark que refletem cenários do mundo real: escolha de termos regionais (solicitando ao LLM que nomeie um item descrito que é referido de forma diferente na China Continental e em Taiwan) e escolha de nomes regionais (solicitando ao LLM que escolha quem contratar a partir de uma lista de nomes tanto em Chinês Simplificado quanto em Chinês Tradicional). Para ambas as tarefas, auditamos o desempenho de 11 serviços líderes de LLMs comerciais e modelos de código aberto — abrangendo aqueles treinados principalmente em inglês, Chinês Simplificado ou Chinês Tradicional. Nossas análises indicam que os vieses nas respostas dos LLMs dependem tanto da tarefa quanto da linguagem de solicitação: enquanto a maioria dos LLMs favoreceu desproporcionalmente respostas em Chinês Simplificado na tarefa de escolha de termos regionais, eles surpreendentemente favoreceram nomes em Chinês Tradicional na tarefa de escolha de nomes regionais. Descobrimos que essas disparidades podem surgir de diferenças na representação dos dados de treinamento, preferências de caracteres escritos e tokenização do Chinês Simplificado e Tradicional. Esses achados destacam a necessidade de uma análise mais aprofundada dos vieses dos LLMs; assim, fornecemos um conjunto de dados de benchmark de código aberto para promover avaliações reproduzíveis do comportamento futuro dos LLMs em variantes da língua chinesa (https://github.com/brucelyu17/SC-TC-Bench).
English
While the capabilities of Large Language Models (LLMs) have been studied in both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit differential performance when prompted in these two variants of written Chinese. This understanding is critical, as disparities in the quality of LLM responses can perpetuate representational harms by ignoring the different cultural contexts underlying Simplified versus Traditional Chinese, and can exacerbate downstream harms in LLM-facilitated decision-making in domains such as education or hiring. To investigate potential LLM performance disparities, we design two benchmark tasks that reflect real-world scenarios: regional term choice (prompting the LLM to name a described item which is referred to differently in Mainland China and Taiwan), and regional name choice (prompting the LLM to choose who to hire from a list of names in both Simplified and Traditional Chinese). For both tasks, we audit the performance of 11 leading commercial LLM services and open-sourced models -- spanning those primarily trained on English, Simplified Chinese, or Traditional Chinese. Our analyses indicate that biases in LLM responses are dependent on both the task and prompting language: while most LLMs disproportionately favored Simplified Chinese responses in the regional term choice task, they surprisingly favored Traditional Chinese names in the regional name choice task. We find that these disparities may arise from differences in training data representation, written character preferences, and tokenization of Simplified and Traditional Chinese. These findings highlight the need for further analysis of LLM biases; as such, we provide an open-sourced benchmark dataset to foster reproducible evaluations of future LLM behavior across Chinese language variants (https://github.com/brucelyu17/SC-TC-Bench).
PDF22May 29, 2025