O papel dos dados sintéticos em sistemas de IA multilíngues e multiculturais: Lições das línguas indianas
The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages
September 25, 2025
Autores: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
cs.AI
Resumo
O desenvolvimento de sistemas de IA que operam eficazmente em diversos idiomas, mantendo-se culturalmente contextualizados, é um desafio de longa data, especialmente em cenários de baixos recursos. Os dados sintéticos oferecem uma abordagem promissora, mas sua eficácia em contextos multilíngues e multiculturais ainda é pouco explorada. Investigamos a criação e o impacto de conjuntos de dados sintéticos e culturalmente contextualizados para idiomas indianos por meio de uma estratégia de geração ascendente (bottom-up), que utiliza modelos de linguagem grandes (LLMs) de código aberto (>= 235 bilhões de parâmetros) para ancorar a geração de dados em conteúdos específicos da Wikipédia em cada idioma. Essa abordagem complementa o paradigma dominante de tradução de conjuntos de dados sintéticos de idiomas de altos recursos, como o inglês. Apresentamos o Updesh, um conjunto de dados sintéticos de alta qualidade e grande escala para tarefas de instrução, composto por 9,5 milhões de pontos de dados em 13 idiomas indianos, abrangendo diversas tarefas de raciocínio e geração, com ênfase em capacidades de contexto longo, interações multiturno e alinhamento com contextos culturais indianos. Uma avaliação abrangente, incorporando métricas automatizadas e anotações humanas em 10 mil avaliações, indica que os dados gerados são de alta qualidade, embora a avaliação humana destaque áreas para melhorias adicionais. Além disso, realizamos avaliações subsequentes ao ajustar modelos em nosso conjunto de dados e medir o desempenho em 15 conjuntos de dados multilíngues diversos. Modelos treinados com o Updesh alcançam ganhos significativos consistentemente em tarefas generativas e mantêm-se competitivos em tarefas de compreensão de linguagem natural (NLU) de múltipla escolha. Notavelmente, os aprimoramentos relativos são mais pronunciados em idiomas de baixos e médios recursos, reduzindo a lacuna em relação aos idiomas de altos recursos. Esses achados fornecem evidências empíricas de que a IA multilíngue eficaz requer estratégias multifacetadas de curadoria e geração de dados que incorporem metodologias contextualmente conscientes e culturalmente fundamentadas.
English
Developing AI systems that operate effectively across languages while
remaining culturally grounded is a long-standing challenge, particularly in
low-resource settings. Synthetic data provides a promising avenue, yet its
effectiveness in multilingual and multicultural contexts remains underexplored.
We investigate the creation and impact of synthetic, culturally contextualized
datasets for Indian languages through a bottom-up generation strategy that
prompts large open-source LLMs (>= 235B parameters) to ground data generation
in language-specific Wikipedia content. This approach complements the dominant
top-down paradigm of translating synthetic datasets from high-resource
languages such as English. We introduce Updesh, a high-quality large-scale
synthetic instruction-following dataset comprising 9.5M data points across 13
Indian languages, encompassing diverse reasoning and generative tasks with an
emphasis on long-context, multi-turn capabilities, and alignment with Indian
cultural contexts. A comprehensive evaluation incorporating both automated
metrics and human annotation across 10k assessments indicates that generated
data is high quality; though, human evaluation highlights areas for further
improvement. Additionally, we perform downstream evaluations by fine-tuning
models on our dataset and assessing the performance across 15 diverse
multilingual datasets. Models trained on Updesh consistently achieve
significant gains on generative tasks and remain competitive on multiple-choice
style NLU tasks. Notably, relative improvements are most pronounced in low and
medium-resource languages, narrowing their gap with high-resource languages.
These findings provide empirical evidence that effective multilingual AI
requires multi-faceted data curation and generation strategies that incorporate
context-aware, culturally grounded methodologies.