ChatPaper.aiChatPaper

Потерянные в культурном переводе: Испытывают ли большие языковые модели трудности с математикой в различных культурных контекстах?

Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

March 23, 2025
Авторы: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI

Аннотация

Крупные языковые модели (LLMs) значительно продвинули различные области, особенно программирование, математическое рассуждение и решение логических задач. Однако остается важный вопрос: сохраняются ли эти способности к математическому рассуждению, когда LLMs сталкиваются с математическими задачами, адаптированными к культурным контекстам? В частности, как LLMs справляются с математическими задачами, встроенными в культурные контексты, которые слабо представлены в основных масштабных данных для обучения ИИ? Чтобы изучить это, мы создали шесть синтетических культурных наборов данных на основе GSM8K — широко используемого бенчмарка для оценки математических навыков LLMs. Сохраняя математическую логику и числовые значения оригинального тестового набора GSM8K, мы изменили культурные элементы, такие как имена людей, продукты питания, названия мест и т.д. Эти культурно адаптированные наборы данных предоставляют более надежную основу для оценки математического рассуждения LLMs в изменяющихся культурных контекстах. Наши результаты показывают, что LLMs испытывают трудности с математическими задачами при изменении культурных ссылок, даже если лежащая в основе математическая структура остается неизменной. Меньшие модели демонстрируют более значительное снижение производительности по сравнению с крупными моделями. Интересно, что наши результаты также свидетельствуют о том, что культурная осведомленность может улучшать математическое рассуждение. Даже модели без явной математической подготовки, но с опытом в соответствующих культурных контекстах, иногда превосходят более крупные, математически подготовленные модели в решении культурно встроенных математических задач. Это исследование подчеркивает влияние культурного контекста на способности LLMs к математическому рассуждению, указывая на необходимость более разнообразных и репрезентативных данных для обучения, чтобы повысить устойчивость в реальных приложениях. Наборы данных бенчмарка и скрипт для воспроизведения результатов доступны по адресу: https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields, particularly coding, mathematical reasoning, and logical problem solving. However, a critical question remains: Do these mathematical reasoning abilities persist when LLMs are presented with culturally adapted math problems? Specifically, how do LLMs perform when faced with math problems embedded in cultural contexts that have no significant representation in main stream web-scale AI training data? To explore this, we generated six synthetic cultural datasets from GSM8K, a widely used benchmark for assessing LLMs' mathematical reasoning skills. While preserving the mathematical logic and numerical values of the original GSM8K test set, we modify cultural elements such as personal names, food items, place names, etc. These culturally adapted datasets provide a more reliable framework for evaluating LLMs' mathematical reasoning under shifting cultural contexts. Our findings reveal that LLMs struggle with math problems when cultural references change, even though the underlying mathematical structure remains constant. Smaller models exhibit greater performance drops compared to larger models. Interestingly, our results also suggest that cultural familiarity can enhance mathematical reasoning. Even models with no explicit mathematical training but exposure to relevant cultural contexts sometimes outperform larger, mathematically proficient models on culturally embedded math problems. This study highlights the impact of cultural context on the mathematical reasoning abilities of LLMs, underscoring the need for more diverse and representative training data to improve robustness in real-world applications. The benchmark data sets and script for reproducing the results are available at https://github.com/akarim23131/Lost_in_Cultural_Translation

Summary

AI-Generated Summary

PDF62March 25, 2025