ChatPaper.aiChatPaper

Caracterización del Sesgo: Evaluación Comparativa de Modelos de Lenguaje a Gran Escala en Chino Simplificado versus Chino Tradicional

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

May 28, 2025
Autores: Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke
cs.AI

Resumen

Si bien las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido estudiadas tanto en chino simplificado como en chino tradicional, aún no está claro si estos modelos muestran un desempeño diferencial cuando se les solicita respuestas en estas dos variantes del chino escrito. Esta comprensión es crucial, ya que las disparidades en la calidad de las respuestas de los LLMs pueden perpetuar daños representativos al ignorar los diferentes contextos culturales subyacentes al chino simplificado frente al tradicional, y pueden exacerbar daños posteriores en la toma de decisiones facilitada por LLMs en dominios como la educación o la contratación. Para investigar posibles disparidades en el desempeño de los LLMs, diseñamos dos tareas de referencia que reflejan escenarios del mundo real: la elección de términos regionales (solicitando al LLM que nombre un objeto descrito que se refiere de manera diferente en China continental y Taiwán) y la elección de nombres regionales (solicitando al LLM que elija a quién contratar de una lista de nombres en chino simplificado y tradicional). Para ambas tareas, auditamos el desempeño de 11 servicios comerciales líderes de LLMs y modelos de código abierto, abarcando aquellos entrenados principalmente en inglés, chino simplificado o chino tradicional. Nuestros análisis indican que los sesgos en las respuestas de los LLMs dependen tanto de la tarea como del idioma de la solicitud: mientras que la mayoría de los LLMs favorecieron desproporcionadamente respuestas en chino simplificado en la tarea de elección de términos regionales, sorprendentemente favorecieron nombres en chino tradicional en la tarea de elección de nombres regionales. Encontramos que estas disparidades pueden surgir de diferencias en la representación de los datos de entrenamiento, las preferencias de caracteres escritos y la tokenización del chino simplificado y tradicional. Estos hallazgos resaltan la necesidad de un análisis más profundo de los sesgos en los LLMs; por ello, proporcionamos un conjunto de datos de referencia de código abierto para fomentar evaluaciones reproducibles del comportamiento futuro de los LLMs en las variantes del idioma chino (https://github.com/brucelyu17/SC-TC-Bench).
English
While the capabilities of Large Language Models (LLMs) have been studied in both Simplified and Traditional Chinese, it is yet unclear whether LLMs exhibit differential performance when prompted in these two variants of written Chinese. This understanding is critical, as disparities in the quality of LLM responses can perpetuate representational harms by ignoring the different cultural contexts underlying Simplified versus Traditional Chinese, and can exacerbate downstream harms in LLM-facilitated decision-making in domains such as education or hiring. To investigate potential LLM performance disparities, we design two benchmark tasks that reflect real-world scenarios: regional term choice (prompting the LLM to name a described item which is referred to differently in Mainland China and Taiwan), and regional name choice (prompting the LLM to choose who to hire from a list of names in both Simplified and Traditional Chinese). For both tasks, we audit the performance of 11 leading commercial LLM services and open-sourced models -- spanning those primarily trained on English, Simplified Chinese, or Traditional Chinese. Our analyses indicate that biases in LLM responses are dependent on both the task and prompting language: while most LLMs disproportionately favored Simplified Chinese responses in the regional term choice task, they surprisingly favored Traditional Chinese names in the regional name choice task. We find that these disparities may arise from differences in training data representation, written character preferences, and tokenization of Simplified and Traditional Chinese. These findings highlight the need for further analysis of LLM biases; as such, we provide an open-sourced benchmark dataset to foster reproducible evaluations of future LLM behavior across Chinese language variants (https://github.com/brucelyu17/SC-TC-Bench).

Summary

AI-Generated Summary

PDF22May 29, 2025