ChatPaper.aiChatPaper

Verdwaald in culturele vertaling: Hebben LLM's moeite met wiskunde in verschillende culturele contexten?

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

March 23, 2025
Auteurs: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in diverse vakgebieden, met name in coderen, wiskundig redeneren en logisch probleemoplossen. Een cruciale vraag blijft echter: Blijven deze wiskundige redeneervaardigheden behouden wanneer LLMs worden geconfronteerd met cultureel aangepaste wiskundeproblemen? Specifiek, hoe presteren LLMs wanneer ze worden geconfronteerd met wiskundeproblemen die zijn ingebed in culturele contexten die niet significant zijn vertegenwoordigd in grootschalige AI-trainingsdata? Om dit te onderzoeken, hebben we zes synthetische culturele datasets gegenereerd uit GSM8K, een veelgebruikte benchmark voor het beoordelen van de wiskundige redeneervaardigheden van LLMs. Terwijl we de wiskundige logica en numerieke waarden van de originele GSM8K-testset behouden, passen we culturele elementen aan, zoals persoonsnamen, voedselitems, plaatsnamen, enz. Deze cultureel aangepaste datasets bieden een betrouwbaarder kader voor het evalueren van het wiskundig redeneren van LLMs onder veranderende culturele contexten. Onze bevindingen tonen aan dat LLMs moeite hebben met wiskundeproblemen wanneer culturele referenties veranderen, ook al blijft de onderliggende wiskundige structuur constant. Kleinere modellen vertonen een grotere prestatievermindering in vergelijking met grotere modellen. Interessant genoeg suggereren onze resultaten ook dat culturele vertrouwdheid het wiskundig redeneren kan verbeteren. Zelfs modellen zonder expliciete wiskundige training maar met blootstelling aan relevante culturele contexten presteren soms beter dan grotere, wiskundig vaardige modellen bij cultureel ingebedde wiskundeproblemen. Deze studie benadrukt de impact van culturele context op de wiskundige redeneervaardigheden van LLMs, en onderstreept de noodzaak voor meer diverse en representatieve trainingsdata om de robuustheid in real-world toepassingen te verbeteren. De benchmarkdatasets en het script voor het reproduceren van de resultaten zijn beschikbaar op https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields, particularly coding, mathematical reasoning, and logical problem solving. However, a critical question remains: Do these mathematical reasoning abilities persist when LLMs are presented with culturally adapted math problems? Specifically, how do LLMs perform when faced with math problems embedded in cultural contexts that have no significant representation in main stream web-scale AI training data? To explore this, we generated six synthetic cultural datasets from GSM8K, a widely used benchmark for assessing LLMs' mathematical reasoning skills. While preserving the mathematical logic and numerical values of the original GSM8K test set, we modify cultural elements such as personal names, food items, place names, etc. These culturally adapted datasets provide a more reliable framework for evaluating LLMs' mathematical reasoning under shifting cultural contexts. Our findings reveal that LLMs struggle with math problems when cultural references change, even though the underlying mathematical structure remains constant. Smaller models exhibit greater performance drops compared to larger models. Interestingly, our results also suggest that cultural familiarity can enhance mathematical reasoning. Even models with no explicit mathematical training but exposure to relevant cultural contexts sometimes outperform larger, mathematically proficient models on culturally embedded math problems. This study highlights the impact of cultural context on the mathematical reasoning abilities of LLMs, underscoring the need for more diverse and representative training data to improve robustness in real-world applications. The benchmark data sets and script for reproducing the results are available at https://github.com/akarim23131/Lost_in_Cultural_Translation

Summary

AI-Generated Summary

PDF62March 25, 2025