O papel dos dados sintéticos em sistemas de IA multilíngues e multiculturais: Lições das línguas indianas

Resumo

O desenvolvimento de sistemas de IA que operam eficazmente em diversos idiomas, mantendo-se culturalmente contextualizados, é um desafio de longa data, especialmente em cenários de baixos recursos. Os dados sintéticos oferecem uma abordagem promissora, mas sua eficácia em contextos multilíngues e multiculturais ainda é pouco explorada. Investigamos a criação e o impacto de conjuntos de dados sintéticos e culturalmente contextualizados para idiomas indianos por meio de uma estratégia de geração ascendente (bottom-up), que utiliza modelos de linguagem grandes (LLMs) de código aberto (>= 235 bilhões de parâmetros) para ancorar a geração de dados em conteúdos específicos da Wikipédia em cada idioma. Essa abordagem complementa o paradigma dominante de tradução de conjuntos de dados sintéticos de idiomas de altos recursos, como o inglês. Apresentamos o Updesh, um conjunto de dados sintéticos de alta qualidade e grande escala para tarefas de instrução, composto por 9,5 milhões de pontos de dados em 13 idiomas indianos, abrangendo diversas tarefas de raciocínio e geração, com ênfase em capacidades de contexto longo, interações multiturno e alinhamento com contextos culturais indianos. Uma avaliação abrangente, incorporando métricas automatizadas e anotações humanas em 10 mil avaliações, indica que os dados gerados são de alta qualidade, embora a avaliação humana destaque áreas para melhorias adicionais. Além disso, realizamos avaliações subsequentes ao ajustar modelos em nosso conjunto de dados e medir o desempenho em 15 conjuntos de dados multilíngues diversos. Modelos treinados com o Updesh alcançam ganhos significativos consistentemente em tarefas generativas e mantêm-se competitivos em tarefas de compreensão de linguagem natural (NLU) de múltipla escolha. Notavelmente, os aprimoramentos relativos são mais pronunciados em idiomas de baixos e médios recursos, reduzindo a lacuna em relação aos idiomas de altos recursos. Esses achados fornecem evidências empíricas de que a IA multilíngue eficaz requer estratégias multifacetadas de curadoria e geração de dados que incorporem metodologias contextualmente conscientes e culturalmente fundamentadas.

English

Developing AI systems that operate effectively across languages while remaining culturally grounded is a long-standing challenge, particularly in low-resource settings. Synthetic data provides a promising avenue, yet its effectiveness in multilingual and multicultural contexts remains underexplored. We investigate the creation and impact of synthetic, culturally contextualized datasets for Indian languages through a bottom-up generation strategy that prompts large open-source LLMs (>= 235B parameters) to ground data generation in language-specific Wikipedia content. This approach complements the dominant top-down paradigm of translating synthetic datasets from high-resource languages such as English. We introduce Updesh, a high-quality large-scale synthetic instruction-following dataset comprising 9.5M data points across 13 Indian languages, encompassing diverse reasoning and generative tasks with an emphasis on long-context, multi-turn capabilities, and alignment with Indian cultural contexts. A comprehensive evaluation incorporating both automated metrics and human annotation across 10k assessments indicates that generated data is high quality; though, human evaluation highlights areas for further improvement. Additionally, we perform downstream evaluations by fine-tuning models on our dataset and assessing the performance across 15 diverse multilingual datasets. Models trained on Updesh consistently achieve significant gains on generative tasks and remain competitive on multiple-choice style NLU tasks. Notably, relative improvements are most pronounced in low and medium-resource languages, narrowing their gap with high-resource languages. These findings provide empirical evidence that effective multilingual AI requires multi-faceted data curation and generation strategies that incorporate context-aware, culturally grounded methodologies.

O papel dos dados sintéticos em sistemas de IA multilíngues e multiculturais: Lições das línguas indianas

The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages

Resumo

Support