ChatPaper.aiChatPaper

Perdus dans la traduction culturelle : Les LLM rencontrent-ils des difficultés avec les mathématiques dans différents contextes culturels ?

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

March 23, 2025
Auteurs: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont considérablement fait progresser divers domaines, en particulier le codage, le raisonnement mathématique et la résolution de problèmes logiques. Cependant, une question cruciale demeure : ces capacités de raisonnement mathématique persistent-elles lorsque les LLMs sont confrontés à des problèmes mathématiques adaptés culturellement ? Plus précisément, comment les LLMs se comportent-ils face à des problèmes mathématiques intégrés dans des contextes culturels qui ne sont pas significativement représentés dans les données d'entraînement à grande échelle du web ? Pour explorer cela, nous avons généré six ensembles de données culturelles synthétiques à partir de GSM8K, un benchmark largement utilisé pour évaluer les compétences en raisonnement mathématique des LLMs. Tout en conservant la logique mathématique et les valeurs numériques du jeu de test original de GSM8K, nous avons modifié des éléments culturels tels que les noms de personnes, les aliments, les noms de lieux, etc. Ces ensembles de données adaptés culturellement fournissent un cadre plus fiable pour évaluer le raisonnement mathématique des LLMs dans des contextes culturels changeants. Nos résultats révèlent que les LLMs ont des difficultés avec les problèmes mathématiques lorsque les références culturelles changent, même si la structure mathématique sous-jacente reste constante. Les modèles plus petits montrent des baisses de performance plus importantes par rapport aux modèles plus grands. Fait intéressant, nos résultats suggèrent également que la familiarité culturelle peut améliorer le raisonnement mathématique. Même des modèles sans entraînement mathématique explicite mais exposés à des contextes culturels pertinents surpassent parfois des modèles plus grands et compétents en mathématiques sur des problèmes mathématiques intégrés culturellement. Cette étude met en évidence l'impact du contexte culturel sur les capacités de raisonnement mathématique des LLMs, soulignant la nécessité de données d'entraînement plus diversifiées et représentatives pour améliorer la robustesse dans les applications réelles. Les ensembles de données de référence et le script pour reproduire les résultats sont disponibles à l'adresse suivante : https://github.com/akarim23131/Lost_in_Cultural_Translation
English
Large Language Models (LLMs) have significantly advanced various fields, particularly coding, mathematical reasoning, and logical problem solving. However, a critical question remains: Do these mathematical reasoning abilities persist when LLMs are presented with culturally adapted math problems? Specifically, how do LLMs perform when faced with math problems embedded in cultural contexts that have no significant representation in main stream web-scale AI training data? To explore this, we generated six synthetic cultural datasets from GSM8K, a widely used benchmark for assessing LLMs' mathematical reasoning skills. While preserving the mathematical logic and numerical values of the original GSM8K test set, we modify cultural elements such as personal names, food items, place names, etc. These culturally adapted datasets provide a more reliable framework for evaluating LLMs' mathematical reasoning under shifting cultural contexts. Our findings reveal that LLMs struggle with math problems when cultural references change, even though the underlying mathematical structure remains constant. Smaller models exhibit greater performance drops compared to larger models. Interestingly, our results also suggest that cultural familiarity can enhance mathematical reasoning. Even models with no explicit mathematical training but exposure to relevant cultural contexts sometimes outperform larger, mathematically proficient models on culturally embedded math problems. This study highlights the impact of cultural context on the mathematical reasoning abilities of LLMs, underscoring the need for more diverse and representative training data to improve robustness in real-world applications. The benchmark data sets and script for reproducing the results are available at https://github.com/akarim23131/Lost_in_Cultural_Translation

Summary

AI-Generated Summary

PDF62March 25, 2025