Il ruolo dei dati sintetici nei sistemi di IA multilingue e multiculturali: Lezioni dalle lingue indiane

Abstract

Lo sviluppo di sistemi di intelligenza artificiale che operino efficacemente attraverso le lingue mantenendo un radicamento culturale rappresenta una sfida di lunga data, specialmente in contesti a risorse limitate. I dati sintetici offrono una strada promettente, ma la loro efficacia in contesti multilingue e multiculturali rimane ancora poco esplorata. Investigiamo la creazione e l'impatto di dataset sintetici e contestualizzati culturalmente per le lingue indiane attraverso una strategia di generazione bottom-up che spinge i grandi modelli linguistici open-source (>= 235B parametri) a basare la generazione dei dati su contenuti specifici della lingua tratti da Wikipedia. Questo approccio integra il paradigma dominante top-down di traduzione di dataset sintetici da lingue ad alta risorsa come l'inglese. Introduciamo Updesh, un dataset sintetico su larga scala e di alta qualità per il seguimento di istruzioni, composto da 9,5 milioni di punti dati in 13 lingue indiane, che copre una varietà di compiti di ragionamento e generativi con un'enfasi sulle capacità di contesto lungo, multi-turn e sull'allineamento con i contesti culturali indiani. Una valutazione completa che include sia metriche automatizzate che annotazioni umane su 10.000 valutazioni indica che i dati generati sono di alta qualità; tuttavia, la valutazione umana evidenzia aree per ulteriori miglioramenti. Inoltre, eseguiamo valutazioni a valle addestrando modelli sul nostro dataset e valutando le prestazioni su 15 diversi dataset multilingue. I modelli addestrati su Updesh ottengono costantemente miglioramenti significativi nei compiti generativi e rimangono competitivi nei compiti di comprensione del linguaggio naturale (NLU) a scelta multipla. In particolare, i miglioramenti relativi sono più pronunciati nelle lingue a bassa e media risorsa, riducendo il divario con le lingue ad alta risorsa. Questi risultati forniscono prove empiriche che un'IA multilingue efficace richiede strategie di cura e generazione dei dati multifaccettate che incorporano metodologie consapevoli del contesto e radicate culturalmente.

English

Developing AI systems that operate effectively across languages while remaining culturally grounded is a long-standing challenge, particularly in low-resource settings. Synthetic data provides a promising avenue, yet its effectiveness in multilingual and multicultural contexts remains underexplored. We investigate the creation and impact of synthetic, culturally contextualized datasets for Indian languages through a bottom-up generation strategy that prompts large open-source LLMs (>= 235B parameters) to ground data generation in language-specific Wikipedia content. This approach complements the dominant top-down paradigm of translating synthetic datasets from high-resource languages such as English. We introduce Updesh, a high-quality large-scale synthetic instruction-following dataset comprising 9.5M data points across 13 Indian languages, encompassing diverse reasoning and generative tasks with an emphasis on long-context, multi-turn capabilities, and alignment with Indian cultural contexts. A comprehensive evaluation incorporating both automated metrics and human annotation across 10k assessments indicates that generated data is high quality; though, human evaluation highlights areas for further improvement. Additionally, we perform downstream evaluations by fine-tuning models on our dataset and assessing the performance across 15 diverse multilingual datasets. Models trained on Updesh consistently achieve significant gains on generative tasks and remain competitive on multiple-choice style NLU tasks. Notably, relative improvements are most pronounced in low and medium-resource languages, narrowing their gap with high-resource languages. These findings provide empirical evidence that effective multilingual AI requires multi-faceted data curation and generation strategies that incorporate context-aware, culturally grounded methodologies.

Il ruolo dei dati sintetici nei sistemi di IA multilingue e multiculturali: Lezioni dalle lingue indiane

The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages

Abstract

Support