ChatPaper.aiChatPaper

Le rôle des données synthétiques dans les systèmes d'IA multilingues et multiculturelles : Enseignements tirés des langues indiennes

The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages

September 25, 2025
papers.authors: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
cs.AI

papers.abstract

Le développement de systèmes d’IA capables de fonctionner efficacement à travers les langues tout en restant ancrés culturellement constitue un défi de longue date, en particulier dans des contextes à faibles ressources. Les données synthétiques offrent une voie prometteuse, mais leur efficacité dans des contextes multilingues et multiculturels reste insuffisamment explorée. Nous étudions la création et l’impact de jeux de données synthétiques contextualisés culturellement pour les langues indiennes à travers une stratégie de génération ascendante qui incite de grands modèles de langage open-source (>= 235 milliards de paramètres) à ancrer la génération de données dans le contenu spécifique à chaque langue sur Wikipédia. Cette approche complète le paradigme dominant descendant de traduction de jeux de données synthétiques à partir de langues à ressources élevées, comme l’anglais. Nous présentons Updesh, un jeu de données synthétique de grande qualité et à grande échelle pour le suivi d’instructions, comprenant 9,5 millions de points de données couvrant 13 langues indiennes, incluant des tâches variées de raisonnement et de génération avec un accent sur les capacités de contexte long, de dialogues multi-tours et d’alignement avec les contextes culturels indiens. Une évaluation approfondie intégrant à la fois des métriques automatisées et des annotations humaines sur 10 000 échantillons indique que les données générées sont de haute qualité, bien que l’évaluation humaine mette en lumière des domaines nécessitant des améliorations supplémentaires. Par ailleurs, nous effectuons des évaluations en aval en affinant des modèles sur notre jeu de données et en évaluant leurs performances sur 15 jeux de données multilingues variés. Les modèles entraînés sur Updesh obtiennent systématiquement des gains significatifs sur les tâches de génération et restent compétitifs sur les tâches de compréhension du langage naturel de type QCM. Notamment, les améliorations relatives sont les plus marquées pour les langues à faibles et moyennes ressources, réduisant ainsi leur écart avec les langues à ressources élevées. Ces résultats fournissent des preuves empiriques qu’une IA multilingue efficace nécessite des stratégies de curation et de génération de données multidimensionnelles, intégrant des méthodologies conscientes du contexte et ancrées culturellement.
English
Developing AI systems that operate effectively across languages while remaining culturally grounded is a long-standing challenge, particularly in low-resource settings. Synthetic data provides a promising avenue, yet its effectiveness in multilingual and multicultural contexts remains underexplored. We investigate the creation and impact of synthetic, culturally contextualized datasets for Indian languages through a bottom-up generation strategy that prompts large open-source LLMs (>= 235B parameters) to ground data generation in language-specific Wikipedia content. This approach complements the dominant top-down paradigm of translating synthetic datasets from high-resource languages such as English. We introduce Updesh, a high-quality large-scale synthetic instruction-following dataset comprising 9.5M data points across 13 Indian languages, encompassing diverse reasoning and generative tasks with an emphasis on long-context, multi-turn capabilities, and alignment with Indian cultural contexts. A comprehensive evaluation incorporating both automated metrics and human annotation across 10k assessments indicates that generated data is high quality; though, human evaluation highlights areas for further improvement. Additionally, we perform downstream evaluations by fine-tuning models on our dataset and assessing the performance across 15 diverse multilingual datasets. Models trained on Updesh consistently achieve significant gains on generative tasks and remain competitive on multiple-choice style NLU tasks. Notably, relative improvements are most pronounced in low and medium-resource languages, narrowing their gap with high-resource languages. These findings provide empirical evidence that effective multilingual AI requires multi-faceted data curation and generation strategies that incorporate context-aware, culturally grounded methodologies.
PDF32September 29, 2025