Роль синтетических данных в многоязычных и мультикультурных системах ИИ: Уроки на примере индийских языков
The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages
September 25, 2025
Авторы: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
cs.AI
Аннотация
Разработка ИИ-систем, которые эффективно работают на разных языках, оставаясь при этом культурно укорененными, представляет собой давнюю проблему, особенно в условиях ограниченных ресурсов. Синтетические данные предлагают многообещающий путь, однако их эффективность в многоязычных и мультикультурных контекстах остается недостаточно изученной. Мы исследуем создание и влияние синтетических, культурно контекстуализированных наборов данных для индийских языков с использованием стратегии генерации снизу вверх, которая побуждает крупные открытые языковые модели (>= 235 млрд параметров) основывать генерацию данных на контенте из языковых версий Википедии. Этот подход дополняет доминирующую парадигму перевода синтетических наборов данных с языков с высоким уровнем ресурсов, таких как английский. Мы представляем Updesh — высококачественный крупномасштабный синтетический набор данных для выполнения инструкций, состоящий из 9,5 млн данных на 13 индийских языках, охватывающих разнообразные задачи на рассуждение и генерацию с акцентом на длинные контексты, многоходовые взаимодействия и соответствие индийским культурным контекстам. Комплексная оценка, включающая как автоматизированные метрики, так и аннотирование людьми на основе 10 тыс. проверок, показывает, что сгенерированные данные имеют высокое качество, хотя человеческая оценка указывает на области для дальнейшего улучшения. Кроме того, мы проводим последующие оценки, дообучая модели на нашем наборе данных и проверяя их производительность на 15 разнообразных многоязычных наборах данных. Модели, обученные на Updesh, стабильно демонстрируют значительные улучшения в задачах генерации и остаются конкурентоспособными в задачах понимания естественного языка с множественным выбором. Примечательно, что относительные улучшения наиболее заметны в языках с низким и средним уровнем ресурсов, сокращая их разрыв с языками с высоким уровнем ресурсов. Эти результаты предоставляют эмпирические доказательства того, что эффективный многоязычный ИИ требует многогранных стратегий курирования и генерации данных, которые включают контекстно-зависимые, культурно укорененные методологии.
English
Developing AI systems that operate effectively across languages while
remaining culturally grounded is a long-standing challenge, particularly in
low-resource settings. Synthetic data provides a promising avenue, yet its
effectiveness in multilingual and multicultural contexts remains underexplored.
We investigate the creation and impact of synthetic, culturally contextualized
datasets for Indian languages through a bottom-up generation strategy that
prompts large open-source LLMs (>= 235B parameters) to ground data generation
in language-specific Wikipedia content. This approach complements the dominant
top-down paradigm of translating synthetic datasets from high-resource
languages such as English. We introduce Updesh, a high-quality large-scale
synthetic instruction-following dataset comprising 9.5M data points across 13
Indian languages, encompassing diverse reasoning and generative tasks with an
emphasis on long-context, multi-turn capabilities, and alignment with Indian
cultural contexts. A comprehensive evaluation incorporating both automated
metrics and human annotation across 10k assessments indicates that generated
data is high quality; though, human evaluation highlights areas for further
improvement. Additionally, we perform downstream evaluations by fine-tuning
models on our dataset and assessing the performance across 15 diverse
multilingual datasets. Models trained on Updesh consistently achieve
significant gains on generative tasks and remain competitive on multiple-choice
style NLU tasks. Notably, relative improvements are most pronounced in low and
medium-resource languages, narrowing their gap with high-resource languages.
These findings provide empirical evidence that effective multilingual AI
requires multi-faceted data curation and generation strategies that incorporate
context-aware, culturally grounded methodologies.