Il ruolo dei dati sintetici nei sistemi di IA multilingue e multiculturali: Lezioni dalle lingue indiane
The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages
September 25, 2025
Autori: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
cs.AI
Abstract
Lo sviluppo di sistemi di intelligenza artificiale che operino efficacemente attraverso le lingue mantenendo un radicamento culturale rappresenta una sfida di lunga data, specialmente in contesti a risorse limitate. I dati sintetici offrono una strada promettente, ma la loro efficacia in contesti multilingue e multiculturali rimane ancora poco esplorata. Investigiamo la creazione e l'impatto di dataset sintetici e contestualizzati culturalmente per le lingue indiane attraverso una strategia di generazione bottom-up che spinge i grandi modelli linguistici open-source (>= 235B parametri) a basare la generazione dei dati su contenuti specifici della lingua tratti da Wikipedia. Questo approccio integra il paradigma dominante top-down di traduzione di dataset sintetici da lingue ad alta risorsa come l'inglese. Introduciamo Updesh, un dataset sintetico su larga scala e di alta qualità per il seguimento di istruzioni, composto da 9,5 milioni di punti dati in 13 lingue indiane, che copre una varietà di compiti di ragionamento e generativi con un'enfasi sulle capacità di contesto lungo, multi-turn e sull'allineamento con i contesti culturali indiani. Una valutazione completa che include sia metriche automatizzate che annotazioni umane su 10.000 valutazioni indica che i dati generati sono di alta qualità; tuttavia, la valutazione umana evidenzia aree per ulteriori miglioramenti. Inoltre, eseguiamo valutazioni a valle addestrando modelli sul nostro dataset e valutando le prestazioni su 15 diversi dataset multilingue. I modelli addestrati su Updesh ottengono costantemente miglioramenti significativi nei compiti generativi e rimangono competitivi nei compiti di comprensione del linguaggio naturale (NLU) a scelta multipla. In particolare, i miglioramenti relativi sono più pronunciati nelle lingue a bassa e media risorsa, riducendo il divario con le lingue ad alta risorsa. Questi risultati forniscono prove empiriche che un'IA multilingue efficace richiede strategie di cura e generazione dei dati multifaccettate che incorporano metodologie consapevoli del contesto e radicate culturalmente.
English
Developing AI systems that operate effectively across languages while
remaining culturally grounded is a long-standing challenge, particularly in
low-resource settings. Synthetic data provides a promising avenue, yet its
effectiveness in multilingual and multicultural contexts remains underexplored.
We investigate the creation and impact of synthetic, culturally contextualized
datasets for Indian languages through a bottom-up generation strategy that
prompts large open-source LLMs (>= 235B parameters) to ground data generation
in language-specific Wikipedia content. This approach complements the dominant
top-down paradigm of translating synthetic datasets from high-resource
languages such as English. We introduce Updesh, a high-quality large-scale
synthetic instruction-following dataset comprising 9.5M data points across 13
Indian languages, encompassing diverse reasoning and generative tasks with an
emphasis on long-context, multi-turn capabilities, and alignment with Indian
cultural contexts. A comprehensive evaluation incorporating both automated
metrics and human annotation across 10k assessments indicates that generated
data is high quality; though, human evaluation highlights areas for further
improvement. Additionally, we perform downstream evaluations by fine-tuning
models on our dataset and assessing the performance across 15 diverse
multilingual datasets. Models trained on Updesh consistently achieve
significant gains on generative tasks and remain competitive on multiple-choice
style NLU tasks. Notably, relative improvements are most pronounced in low and
medium-resource languages, narrowing their gap with high-resource languages.
These findings provide empirical evidence that effective multilingual AI
requires multi-faceted data curation and generation strategies that incorporate
context-aware, culturally grounded methodologies.