Die Rolle synthetischer Daten in mehrsprachigen, multikulturellen KI-Systemen: Lehren aus indischen Sprachen
The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages
September 25, 2025
papers.authors: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
cs.AI
papers.abstract
Die Entwicklung von KI-Systemen, die effektiv über Sprachen hinweg arbeiten und dabei kulturell verankert bleiben, stellt eine langjährige Herausforderung dar, insbesondere in ressourcenarmen Umgebungen. Synthetische Daten bieten einen vielversprechenden Ansatz, doch ihre Wirksamkeit in mehrsprachigen und multikulturellen Kontexten bleibt weitgehend unerforscht. Wir untersuchen die Erstellung und Auswirkung von synthetischen, kulturell kontextualisierten Datensätzen für indische Sprachen durch eine Bottom-up-Generierungsstrategie, die große Open-Source-LLMs (≥ 235B Parameter) dazu anregt, die Datengenerierung in sprachspezifischen Wikipedia-Inhalten zu verankern. Dieser Ansatz ergänzt das dominante Top-down-Paradigma der Übersetzung synthetischer Datensätze aus ressourcenreichen Sprachen wie Englisch. Wir stellen Updesh vor, einen hochwertigen, groß angelegten synthetischen Datensatz zur Befolgung von Anweisungen, der 9,5 Millionen Datenpunkte in 13 indischen Sprachen umfasst und vielfältige Denk- und Generierungsaufgaben mit Schwerpunkt auf langfristigen Kontexten, Mehrfachinteraktionen und Ausrichtung auf indische kulturelle Kontexte abdeckt. Eine umfassende Bewertung, die sowohl automatisierte Metriken als auch menschliche Annotationen über 10.000 Bewertungen hinweg einbezieht, zeigt, dass die generierten Daten von hoher Qualität sind; allerdings weist die menschliche Bewertung auf Bereiche hin, die weiter verbessert werden können. Zusätzlich führen wir Downstream-Bewertungen durch, indem wir Modelle auf unserem Datensatz feinabstimmen und deren Leistung über 15 verschiedene mehrsprachige Datensätze hinweg bewerten. Modelle, die auf Updesh trainiert wurden, erzielen durchweg signifikante Verbesserungen bei Generierungsaufgaben und bleiben bei Multiple-Choice-NLU-Aufgaben wettbewerbsfähig. Bemerkenswerterweise sind die relativen Verbesserungen in ressourcenarmen und mittelressourcenstarken Sprachen am deutlichsten, wodurch die Lücke zu ressourcenreichen Sprachen verringert wird. Diese Ergebnisse liefern empirische Belege dafür, dass effektive mehrsprachige KI vielschichtige Datenkuratierungs- und Generierungsstrategien erfordert, die kontextbewusste, kulturell verankerte Methoden einbeziehen.
English
Developing AI systems that operate effectively across languages while
remaining culturally grounded is a long-standing challenge, particularly in
low-resource settings. Synthetic data provides a promising avenue, yet its
effectiveness in multilingual and multicultural contexts remains underexplored.
We investigate the creation and impact of synthetic, culturally contextualized
datasets for Indian languages through a bottom-up generation strategy that
prompts large open-source LLMs (>= 235B parameters) to ground data generation
in language-specific Wikipedia content. This approach complements the dominant
top-down paradigm of translating synthetic datasets from high-resource
languages such as English. We introduce Updesh, a high-quality large-scale
synthetic instruction-following dataset comprising 9.5M data points across 13
Indian languages, encompassing diverse reasoning and generative tasks with an
emphasis on long-context, multi-turn capabilities, and alignment with Indian
cultural contexts. A comprehensive evaluation incorporating both automated
metrics and human annotation across 10k assessments indicates that generated
data is high quality; though, human evaluation highlights areas for further
improvement. Additionally, we perform downstream evaluations by fine-tuning
models on our dataset and assessing the performance across 15 diverse
multilingual datasets. Models trained on Updesh consistently achieve
significant gains on generative tasks and remain competitive on multiple-choice
style NLU tasks. Notably, relative improvements are most pronounced in low and
medium-resource languages, narrowing their gap with high-resource languages.
These findings provide empirical evidence that effective multilingual AI
requires multi-faceted data curation and generation strategies that incorporate
context-aware, culturally grounded methodologies.