Perdidos en la Traducción Cultural: ¿Los LLM Tienen Dificultades con las Matemáticas en Diferentes Contextos Culturales?

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han avanzado significativamente en diversos campos, particularmente en la codificación, el razonamiento matemático y la resolución de problemas lógicos. Sin embargo, persiste una pregunta crítica: ¿Persisten estas habilidades de razonamiento matemático cuando los LLMs se enfrentan a problemas matemáticos adaptados culturalmente? Específicamente, ¿cómo se desempeñan los LLMs cuando se les presentan problemas matemáticos integrados en contextos culturales que no tienen una representación significativa en los datos de entrenamiento a gran escala de la inteligencia artificial? Para explorar esto, generamos seis conjuntos de datos culturales sintéticos a partir de GSM8K, un punto de referencia ampliamente utilizado para evaluar las habilidades de razonamiento matemático de los LLMs. Mientras conservamos la lógica matemática y los valores numéricos del conjunto de pruebas original de GSM8K, modificamos elementos culturales como nombres personales, alimentos, nombres de lugares, etc. Estos conjuntos de datos adaptados culturalmente proporcionan un marco más confiable para evaluar el razonamiento matemático de los LLMs en contextos culturales cambiantes. Nuestros hallazgos revelan que los LLMs tienen dificultades con los problemas matemáticos cuando las referencias culturales cambian, a pesar de que la estructura matemática subyacente permanece constante. Los modelos más pequeños experimentan mayores caídas en el rendimiento en comparación con los modelos más grandes. Curiosamente, nuestros resultados también sugieren que la familiaridad cultural puede mejorar el razonamiento matemático. Incluso modelos sin entrenamiento matemático explícito, pero con exposición a contextos culturales relevantes, a veces superan a modelos más grandes y matemáticamente competentes en problemas matemáticos integrados culturalmente. Este estudio destaca el impacto del contexto cultural en las habilidades de razonamiento matemático de los LLMs, subrayando la necesidad de datos de entrenamiento más diversos y representativos para mejorar la robustez en aplicaciones del mundo real. Los conjuntos de datos de referencia y el script para reproducir los resultados están disponibles en https://github.com/akarim23131/Lost_in_Cultural_Translation.

English

Large Language Models (LLMs) have significantly advanced various fields, particularly coding, mathematical reasoning, and logical problem solving. However, a critical question remains: Do these mathematical reasoning abilities persist when LLMs are presented with culturally adapted math problems? Specifically, how do LLMs perform when faced with math problems embedded in cultural contexts that have no significant representation in main stream web-scale AI training data? To explore this, we generated six synthetic cultural datasets from GSM8K, a widely used benchmark for assessing LLMs' mathematical reasoning skills. While preserving the mathematical logic and numerical values of the original GSM8K test set, we modify cultural elements such as personal names, food items, place names, etc. These culturally adapted datasets provide a more reliable framework for evaluating LLMs' mathematical reasoning under shifting cultural contexts. Our findings reveal that LLMs struggle with math problems when cultural references change, even though the underlying mathematical structure remains constant. Smaller models exhibit greater performance drops compared to larger models. Interestingly, our results also suggest that cultural familiarity can enhance mathematical reasoning. Even models with no explicit mathematical training but exposure to relevant cultural contexts sometimes outperform larger, mathematically proficient models on culturally embedded math problems. This study highlights the impact of cultural context on the mathematical reasoning abilities of LLMs, underscoring the need for more diverse and representative training data to improve robustness in real-world applications. The benchmark data sets and script for reproducing the results are available at https://github.com/akarim23131/Lost_in_Cultural_Translation

Perdidos en la Traducción Cultural: ¿Los LLM Tienen Dificultades con las Matemáticas en Diferentes Contextos Culturales?

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

Resumen

Support