Perdidos en la Traducción Cultural: ¿Los LLM Tienen Dificultades con las Matemáticas en Diferentes Contextos Culturales?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
March 23, 2025
Autores: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han avanzado significativamente en diversos campos, particularmente en la codificación, el razonamiento matemático y la resolución de problemas lógicos. Sin embargo, persiste una pregunta crítica: ¿Persisten estas habilidades de razonamiento matemático cuando los LLMs se enfrentan a problemas matemáticos adaptados culturalmente? Específicamente, ¿cómo se desempeñan los LLMs cuando se les presentan problemas matemáticos integrados en contextos culturales que no tienen una representación significativa en los datos de entrenamiento a gran escala de la inteligencia artificial? Para explorar esto, generamos seis conjuntos de datos culturales sintéticos a partir de GSM8K, un punto de referencia ampliamente utilizado para evaluar las habilidades de razonamiento matemático de los LLMs. Mientras conservamos la lógica matemática y los valores numéricos del conjunto de pruebas original de GSM8K, modificamos elementos culturales como nombres personales, alimentos, nombres de lugares, etc. Estos conjuntos de datos adaptados culturalmente proporcionan un marco más confiable para evaluar el razonamiento matemático de los LLMs en contextos culturales cambiantes. Nuestros hallazgos revelan que los LLMs tienen dificultades con los problemas matemáticos cuando las referencias culturales cambian, a pesar de que la estructura matemática subyacente permanece constante. Los modelos más pequeños experimentan mayores caídas en el rendimiento en comparación con los modelos más grandes. Curiosamente, nuestros resultados también sugieren que la familiaridad cultural puede mejorar el razonamiento matemático. Incluso modelos sin entrenamiento matemático explícito, pero con exposición a contextos culturales relevantes, a veces superan a modelos más grandes y matemáticamente competentes en problemas matemáticos integrados culturalmente. Este estudio destaca el impacto del contexto cultural en las habilidades de razonamiento matemático de los LLMs, subrayando la necesidad de datos de entrenamiento más diversos y representativos para mejorar la robustez en aplicaciones del mundo real. Los conjuntos de datos de referencia y el script para reproducir los resultados están disponibles en https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields,
particularly coding, mathematical reasoning, and logical problem solving.
However, a critical question remains: Do these mathematical reasoning abilities
persist when LLMs are presented with culturally adapted math problems?
Specifically, how do LLMs perform when faced with math problems embedded in
cultural contexts that have no significant representation in main stream
web-scale AI training data? To explore this, we generated six synthetic
cultural datasets from GSM8K, a widely used benchmark for assessing LLMs'
mathematical reasoning skills. While preserving the mathematical logic and
numerical values of the original GSM8K test set, we modify cultural elements
such as personal names, food items, place names, etc. These culturally adapted
datasets provide a more reliable framework for evaluating LLMs' mathematical
reasoning under shifting cultural contexts. Our findings reveal that LLMs
struggle with math problems when cultural references change, even though the
underlying mathematical structure remains constant. Smaller models exhibit
greater performance drops compared to larger models. Interestingly, our results
also suggest that cultural familiarity can enhance mathematical reasoning. Even
models with no explicit mathematical training but exposure to relevant cultural
contexts sometimes outperform larger, mathematically proficient models on
culturally embedded math problems. This study highlights the impact of cultural
context on the mathematical reasoning abilities of LLMs, underscoring the need
for more diverse and representative training data to improve robustness in
real-world applications. The benchmark data sets and script for reproducing the
results are available at
https://github.com/akarim23131/Lost_in_Cultural_TranslationSummary
AI-Generated Summary