Verdwaald in culturele vertaling: Hebben LLM's moeite met wiskunde in verschillende culturele contexten?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
March 23, 2025
Auteurs: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in diverse vakgebieden, met name in coderen, wiskundig redeneren en logisch probleemoplossen. Een cruciale vraag blijft echter: Blijven deze wiskundige redeneervaardigheden behouden wanneer LLMs worden geconfronteerd met cultureel aangepaste wiskundeproblemen? Specifiek, hoe presteren LLMs wanneer ze worden geconfronteerd met wiskundeproblemen die zijn ingebed in culturele contexten die niet significant zijn vertegenwoordigd in grootschalige AI-trainingsdata? Om dit te onderzoeken, hebben we zes synthetische culturele datasets gegenereerd uit GSM8K, een veelgebruikte benchmark voor het beoordelen van de wiskundige redeneervaardigheden van LLMs. Terwijl we de wiskundige logica en numerieke waarden van de originele GSM8K-testset behouden, passen we culturele elementen aan, zoals persoonsnamen, voedselitems, plaatsnamen, enz. Deze cultureel aangepaste datasets bieden een betrouwbaarder kader voor het evalueren van het wiskundig redeneren van LLMs onder veranderende culturele contexten. Onze bevindingen tonen aan dat LLMs moeite hebben met wiskundeproblemen wanneer culturele referenties veranderen, ook al blijft de onderliggende wiskundige structuur constant. Kleinere modellen vertonen een grotere prestatievermindering in vergelijking met grotere modellen. Interessant genoeg suggereren onze resultaten ook dat culturele vertrouwdheid het wiskundig redeneren kan verbeteren. Zelfs modellen zonder expliciete wiskundige training maar met blootstelling aan relevante culturele contexten presteren soms beter dan grotere, wiskundig vaardige modellen bij cultureel ingebedde wiskundeproblemen. Deze studie benadrukt de impact van culturele context op de wiskundige redeneervaardigheden van LLMs, en onderstreept de noodzaak voor meer diverse en representatieve trainingsdata om de robuustheid in real-world toepassingen te verbeteren. De benchmarkdatasets en het script voor het reproduceren van de resultaten zijn beschikbaar op https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields,
particularly coding, mathematical reasoning, and logical problem solving.
However, a critical question remains: Do these mathematical reasoning abilities
persist when LLMs are presented with culturally adapted math problems?
Specifically, how do LLMs perform when faced with math problems embedded in
cultural contexts that have no significant representation in main stream
web-scale AI training data? To explore this, we generated six synthetic
cultural datasets from GSM8K, a widely used benchmark for assessing LLMs'
mathematical reasoning skills. While preserving the mathematical logic and
numerical values of the original GSM8K test set, we modify cultural elements
such as personal names, food items, place names, etc. These culturally adapted
datasets provide a more reliable framework for evaluating LLMs' mathematical
reasoning under shifting cultural contexts. Our findings reveal that LLMs
struggle with math problems when cultural references change, even though the
underlying mathematical structure remains constant. Smaller models exhibit
greater performance drops compared to larger models. Interestingly, our results
also suggest that cultural familiarity can enhance mathematical reasoning. Even
models with no explicit mathematical training but exposure to relevant cultural
contexts sometimes outperform larger, mathematically proficient models on
culturally embedded math problems. This study highlights the impact of cultural
context on the mathematical reasoning abilities of LLMs, underscoring the need
for more diverse and representative training data to improve robustness in
real-world applications. The benchmark data sets and script for reproducing the
results are available at
https://github.com/akarim23131/Lost_in_Cultural_TranslationSummary
AI-Generated Summary