De rol van synthetische data in meertalige, multiculturele AI-systemen: Lessen uit Indiase talen
The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages
September 25, 2025
Auteurs: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
cs.AI
Samenvatting
Het ontwikkelen van AI-systemen die effectief functioneren in verschillende talen en tegelijkertijd cultureel verankerd blijven, is een langdurige uitdaging, vooral in omgevingen met beperkte middelen. Synthetische data biedt een veelbelovende aanpak, maar de effectiviteit ervan in meertalige en multiculturele contexten is nog onvoldoende onderzocht. Wij onderzoeken het creëren en de impact van synthetische, cultureel gecontextualiseerde datasets voor Indiase talen via een bottom-up generatiestrategie die grote open-source LLM's (≥ 235B parameters) aanzet om data-generatie te verankeren in taal-specifieke Wikipedia-inhoud. Deze benadering vult het dominante top-down paradigma aan van het vertalen van synthetische datasets uit hoog-resource talen zoals Engels. Wij introduceren Updesh, een hoogwaardige, grootschalige synthetische instructievolgende dataset bestaande uit 9,5 miljoen datapunten in 13 Indiase talen, die diverse redeneer- en generatieve taken omvat met nadruk op lange-context, multi-turn mogelijkheden en afstemming op Indiase culturele contexten. Een uitgebreide evaluatie met zowel geautomatiseerde metrieken als menselijke annotatie over 10.000 beoordelingen toont aan dat de gegenereerde data van hoge kwaliteit is; hoewel menselijke evaluatie gebieden voor verdere verbetering benadrukt. Daarnaast voeren we downstream evaluaties uit door modellen te fine-tunen op onze dataset en de prestaties te beoordelen over 15 diverse meertalige datasets. Modellen getraind op Updesh behalen consistent significante verbeteringen op generatieve taken en blijven concurrerend op multiple-choice stijl NLU-taken. Opvallend is dat relatieve verbeteringen het meest uitgesproken zijn in talen met lage en gemiddelde middelen, waardoor de kloof met hoog-resource talen wordt verkleind. Deze bevindingen leveren empirisch bewijs dat effectieve meertalige AI veelzijdige data-curatie- en generatiestrategieën vereist die contextbewuste, cultureel verankerde methodologieën incorporeren.
English
Developing AI systems that operate effectively across languages while
remaining culturally grounded is a long-standing challenge, particularly in
low-resource settings. Synthetic data provides a promising avenue, yet its
effectiveness in multilingual and multicultural contexts remains underexplored.
We investigate the creation and impact of synthetic, culturally contextualized
datasets for Indian languages through a bottom-up generation strategy that
prompts large open-source LLMs (>= 235B parameters) to ground data generation
in language-specific Wikipedia content. This approach complements the dominant
top-down paradigm of translating synthetic datasets from high-resource
languages such as English. We introduce Updesh, a high-quality large-scale
synthetic instruction-following dataset comprising 9.5M data points across 13
Indian languages, encompassing diverse reasoning and generative tasks with an
emphasis on long-context, multi-turn capabilities, and alignment with Indian
cultural contexts. A comprehensive evaluation incorporating both automated
metrics and human annotation across 10k assessments indicates that generated
data is high quality; though, human evaluation highlights areas for further
improvement. Additionally, we perform downstream evaluations by fine-tuning
models on our dataset and assessing the performance across 15 diverse
multilingual datasets. Models trained on Updesh consistently achieve
significant gains on generative tasks and remain competitive on multiple-choice
style NLU tasks. Notably, relative improvements are most pronounced in low and
medium-resource languages, narrowing their gap with high-resource languages.
These findings provide empirical evidence that effective multilingual AI
requires multi-faceted data curation and generation strategies that incorporate
context-aware, culturally grounded methodologies.