Die Rolle synthetischer Daten in mehrsprachigen, multikulturellen KI-Systemen: Lehren aus indischen Sprachen

papers.abstract

Die Entwicklung von KI-Systemen, die effektiv über Sprachen hinweg arbeiten und dabei kulturell verankert bleiben, stellt eine langjährige Herausforderung dar, insbesondere in ressourcenarmen Umgebungen. Synthetische Daten bieten einen vielversprechenden Ansatz, doch ihre Wirksamkeit in mehrsprachigen und multikulturellen Kontexten bleibt weitgehend unerforscht. Wir untersuchen die Erstellung und Auswirkung von synthetischen, kulturell kontextualisierten Datensätzen für indische Sprachen durch eine Bottom-up-Generierungsstrategie, die große Open-Source-LLMs (≥ 235B Parameter) dazu anregt, die Datengenerierung in sprachspezifischen Wikipedia-Inhalten zu verankern. Dieser Ansatz ergänzt das dominante Top-down-Paradigma der Übersetzung synthetischer Datensätze aus ressourcenreichen Sprachen wie Englisch. Wir stellen Updesh vor, einen hochwertigen, groß angelegten synthetischen Datensatz zur Befolgung von Anweisungen, der 9,5 Millionen Datenpunkte in 13 indischen Sprachen umfasst und vielfältige Denk- und Generierungsaufgaben mit Schwerpunkt auf langfristigen Kontexten, Mehrfachinteraktionen und Ausrichtung auf indische kulturelle Kontexte abdeckt. Eine umfassende Bewertung, die sowohl automatisierte Metriken als auch menschliche Annotationen über 10.000 Bewertungen hinweg einbezieht, zeigt, dass die generierten Daten von hoher Qualität sind; allerdings weist die menschliche Bewertung auf Bereiche hin, die weiter verbessert werden können. Zusätzlich führen wir Downstream-Bewertungen durch, indem wir Modelle auf unserem Datensatz feinabstimmen und deren Leistung über 15 verschiedene mehrsprachige Datensätze hinweg bewerten. Modelle, die auf Updesh trainiert wurden, erzielen durchweg signifikante Verbesserungen bei Generierungsaufgaben und bleiben bei Multiple-Choice-NLU-Aufgaben wettbewerbsfähig. Bemerkenswerterweise sind die relativen Verbesserungen in ressourcenarmen und mittelressourcenstarken Sprachen am deutlichsten, wodurch die Lücke zu ressourcenreichen Sprachen verringert wird. Diese Ergebnisse liefern empirische Belege dafür, dass effektive mehrsprachige KI vielschichtige Datenkuratierungs- und Generierungsstrategien erfordert, die kontextbewusste, kulturell verankerte Methoden einbeziehen.

English

Developing AI systems that operate effectively across languages while remaining culturally grounded is a long-standing challenge, particularly in low-resource settings. Synthetic data provides a promising avenue, yet its effectiveness in multilingual and multicultural contexts remains underexplored. We investigate the creation and impact of synthetic, culturally contextualized datasets for Indian languages through a bottom-up generation strategy that prompts large open-source LLMs (>= 235B parameters) to ground data generation in language-specific Wikipedia content. This approach complements the dominant top-down paradigm of translating synthetic datasets from high-resource languages such as English. We introduce Updesh, a high-quality large-scale synthetic instruction-following dataset comprising 9.5M data points across 13 Indian languages, encompassing diverse reasoning and generative tasks with an emphasis on long-context, multi-turn capabilities, and alignment with Indian cultural contexts. A comprehensive evaluation incorporating both automated metrics and human annotation across 10k assessments indicates that generated data is high quality; though, human evaluation highlights areas for further improvement. Additionally, we perform downstream evaluations by fine-tuning models on our dataset and assessing the performance across 15 diverse multilingual datasets. Models trained on Updesh consistently achieve significant gains on generative tasks and remain competitive on multiple-choice style NLU tasks. Notably, relative improvements are most pronounced in low and medium-resource languages, narrowing their gap with high-resource languages. These findings provide empirical evidence that effective multilingual AI requires multi-faceted data curation and generation strategies that incorporate context-aware, culturally grounded methodologies.

Die Rolle synthetischer Daten in mehrsprachigen, multikulturellen KI-Systemen: Lehren aus indischen Sprachen

The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages

papers.abstract

Support