ChatPaper.aiChatPaper

Perdidos na Tradução Cultural: Os LLMs Têm Dificuldades com Matemática em Contextos Culturais?

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

March 23, 2025
Autores: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente em vários campos, particularmente em codificação, raciocínio matemático e resolução de problemas lógicos. No entanto, uma questão crítica permanece: Essas habilidades de raciocínio matemático persistem quando os LLMs são apresentados a problemas matemáticos adaptados culturalmente? Especificamente, como os LLMs se desempenham quando confrontados com problemas matemáticos inseridos em contextos culturais que não têm representação significativa nos dados de treinamento em larga escala da IA? Para explorar isso, geramos seis conjuntos de dados culturais sintéticos a partir do GSM8K, um benchmark amplamente utilizado para avaliar as habilidades de raciocínio matemático dos LLMs. Preservando a lógica matemática e os valores numéricos do conjunto de testes original do GSM8K, modificamos elementos culturais como nomes pessoais, itens alimentares, nomes de lugares, etc. Esses conjuntos de dados adaptados culturalmente fornecem uma estrutura mais confiável para avaliar o raciocínio matemático dos LLMs em contextos culturais variáveis. Nossas descobertas revelam que os LLMs têm dificuldades com problemas matemáticos quando as referências culturais mudam, mesmo que a estrutura matemática subjacente permaneça constante. Modelos menores apresentam quedas de desempenho maiores em comparação com modelos maiores. Curiosamente, nossos resultados também sugerem que a familiaridade cultural pode aprimorar o raciocínio matemático. Até mesmo modelos sem treinamento matemático explícito, mas com exposição a contextos culturais relevantes, às vezes superam modelos maiores e matematicamente proficientes em problemas matemáticos culturalmente embutidos. Este estudo destaca o impacto do contexto cultural nas habilidades de raciocínio matemático dos LLMs, enfatizando a necessidade de dados de treinamento mais diversos e representativos para melhorar a robustez em aplicações do mundo real. Os conjuntos de dados de benchmark e o script para reproduzir os resultados estão disponíveis em https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields, particularly coding, mathematical reasoning, and logical problem solving. However, a critical question remains: Do these mathematical reasoning abilities persist when LLMs are presented with culturally adapted math problems? Specifically, how do LLMs perform when faced with math problems embedded in cultural contexts that have no significant representation in main stream web-scale AI training data? To explore this, we generated six synthetic cultural datasets from GSM8K, a widely used benchmark for assessing LLMs' mathematical reasoning skills. While preserving the mathematical logic and numerical values of the original GSM8K test set, we modify cultural elements such as personal names, food items, place names, etc. These culturally adapted datasets provide a more reliable framework for evaluating LLMs' mathematical reasoning under shifting cultural contexts. Our findings reveal that LLMs struggle with math problems when cultural references change, even though the underlying mathematical structure remains constant. Smaller models exhibit greater performance drops compared to larger models. Interestingly, our results also suggest that cultural familiarity can enhance mathematical reasoning. Even models with no explicit mathematical training but exposure to relevant cultural contexts sometimes outperform larger, mathematically proficient models on culturally embedded math problems. This study highlights the impact of cultural context on the mathematical reasoning abilities of LLMs, underscoring the need for more diverse and representative training data to improve robustness in real-world applications. The benchmark data sets and script for reproducing the results are available at https://github.com/akarim23131/Lost_in_Cultural_Translation

Summary

AI-Generated Summary

PDF62March 25, 2025