Потерянные в культурном переводе: Испытывают ли большие языковые модели трудности с математикой в различных культурных контекстах?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?
March 23, 2025
Авторы: Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar
cs.AI
Аннотация
Крупные языковые модели (LLMs) значительно продвинули различные области, особенно программирование, математическое рассуждение и решение логических задач. Однако остается важный вопрос: сохраняются ли эти способности к математическому рассуждению, когда LLMs сталкиваются с математическими задачами, адаптированными к культурным контекстам? В частности, как LLMs справляются с математическими задачами, встроенными в культурные контексты, которые слабо представлены в основных масштабных данных для обучения ИИ? Чтобы изучить это, мы создали шесть синтетических культурных наборов данных на основе GSM8K — широко используемого бенчмарка для оценки математических навыков LLMs. Сохраняя математическую логику и числовые значения оригинального тестового набора GSM8K, мы изменили культурные элементы, такие как имена людей, продукты питания, названия мест и т.д. Эти культурно адаптированные наборы данных предоставляют более надежную основу для оценки математического рассуждения LLMs в изменяющихся культурных контекстах. Наши результаты показывают, что LLMs испытывают трудности с математическими задачами при изменении культурных ссылок, даже если лежащая в основе математическая структура остается неизменной. Меньшие модели демонстрируют более значительное снижение производительности по сравнению с крупными моделями. Интересно, что наши результаты также свидетельствуют о том, что культурная осведомленность может улучшать математическое рассуждение. Даже модели без явной математической подготовки, но с опытом в соответствующих культурных контекстах, иногда превосходят более крупные, математически подготовленные модели в решении культурно встроенных математических задач. Это исследование подчеркивает влияние культурного контекста на способности LLMs к математическому рассуждению, указывая на необходимость более разнообразных и репрезентативных данных для обучения, чтобы повысить устойчивость в реальных приложениях. Наборы данных бенчмарка и скрипт для воспроизведения результатов доступны по адресу: https://github.com/akarim23131/Lost_in_Cultural_Translation.
English
Large Language Models (LLMs) have significantly advanced various fields,
particularly coding, mathematical reasoning, and logical problem solving.
However, a critical question remains: Do these mathematical reasoning abilities
persist when LLMs are presented with culturally adapted math problems?
Specifically, how do LLMs perform when faced with math problems embedded in
cultural contexts that have no significant representation in main stream
web-scale AI training data? To explore this, we generated six synthetic
cultural datasets from GSM8K, a widely used benchmark for assessing LLMs'
mathematical reasoning skills. While preserving the mathematical logic and
numerical values of the original GSM8K test set, we modify cultural elements
such as personal names, food items, place names, etc. These culturally adapted
datasets provide a more reliable framework for evaluating LLMs' mathematical
reasoning under shifting cultural contexts. Our findings reveal that LLMs
struggle with math problems when cultural references change, even though the
underlying mathematical structure remains constant. Smaller models exhibit
greater performance drops compared to larger models. Interestingly, our results
also suggest that cultural familiarity can enhance mathematical reasoning. Even
models with no explicit mathematical training but exposure to relevant cultural
contexts sometimes outperform larger, mathematically proficient models on
culturally embedded math problems. This study highlights the impact of cultural
context on the mathematical reasoning abilities of LLMs, underscoring the need
for more diverse and representative training data to improve robustness in
real-world applications. The benchmark data sets and script for reproducing the
results are available at
https://github.com/akarim23131/Lost_in_Cultural_TranslationSummary
AI-Generated Summary