ChatPaper.aiChatPaper

El papel de los datos sintéticos en los sistemas de IA multilingües y multiculturales: Lecciones desde las lenguas índicas

The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages

September 25, 2025
Autores: Pranjal A. Chitale, Varun Gumma, Sanchit Ahuja, Prashant Kodali, Manan Uppadhyay, Deepthi Sudharsan, Sunayana Sitaram
cs.AI

Resumen

El desarrollo de sistemas de IA que operen eficazmente en múltiples idiomas mientras se mantienen culturalmente fundamentados es un desafío de larga data, particularmente en entornos de bajos recursos. Los datos sintéticos ofrecen una vía prometedora, aunque su efectividad en contextos multilingües y multiculturales sigue siendo poco explorada. Investigamos la creación y el impacto de conjuntos de datos sintéticos y contextualizados culturalmente para idiomas indios mediante una estrategia de generación ascendente que utiliza modelos de lenguaje grandes (LLMs) de código abierto (>= 235B parámetros) para fundamentar la generación de datos en contenido específico de Wikipedia en cada idioma. Este enfoque complementa el paradigma dominante de traducción descendente de conjuntos de datos sintéticos desde idiomas de altos recursos, como el inglés. Presentamos Updesh, un conjunto de datos sintéticos de gran escala y alta calidad para seguimiento de instrucciones, que comprende 9.5 millones de puntos de datos en 13 idiomas indios, abarcando diversas tareas de razonamiento y generación con énfasis en capacidades de contexto largo, interacciones multiturno y alineación con contextos culturales indios. Una evaluación exhaustiva que incorpora métricas automatizadas y anotación humana en 10k evaluaciones indica que los datos generados son de alta calidad; sin embargo, la evaluación humana resalta áreas para futuras mejoras. Además, realizamos evaluaciones posteriores ajustando modelos con nuestro conjunto de datos y evaluando su rendimiento en 15 conjuntos de datos multilingües diversos. Los modelos entrenados con Updesh logran consistentemente mejoras significativas en tareas generativas y se mantienen competitivos en tareas de comprensión del lenguaje natural (NLU) de opción múltiple. Notablemente, las mejoras relativas son más pronunciadas en idiomas de bajos y medianos recursos, reduciendo su brecha con los idiomas de altos recursos. Estos hallazgos proporcionan evidencia empírica de que la IA multilingüe efectiva requiere estrategias multifacéticas de curación y generación de datos que incorporen metodologías conscientes del contexto y culturalmente fundamentadas.
English
Developing AI systems that operate effectively across languages while remaining culturally grounded is a long-standing challenge, particularly in low-resource settings. Synthetic data provides a promising avenue, yet its effectiveness in multilingual and multicultural contexts remains underexplored. We investigate the creation and impact of synthetic, culturally contextualized datasets for Indian languages through a bottom-up generation strategy that prompts large open-source LLMs (>= 235B parameters) to ground data generation in language-specific Wikipedia content. This approach complements the dominant top-down paradigm of translating synthetic datasets from high-resource languages such as English. We introduce Updesh, a high-quality large-scale synthetic instruction-following dataset comprising 9.5M data points across 13 Indian languages, encompassing diverse reasoning and generative tasks with an emphasis on long-context, multi-turn capabilities, and alignment with Indian cultural contexts. A comprehensive evaluation incorporating both automated metrics and human annotation across 10k assessments indicates that generated data is high quality; though, human evaluation highlights areas for further improvement. Additionally, we perform downstream evaluations by fine-tuning models on our dataset and assessing the performance across 15 diverse multilingual datasets. Models trained on Updesh consistently achieve significant gains on generative tasks and remain competitive on multiple-choice style NLU tasks. Notably, relative improvements are most pronounced in low and medium-resource languages, narrowing their gap with high-resource languages. These findings provide empirical evidence that effective multilingual AI requires multi-faceted data curation and generation strategies that incorporate context-aware, culturally grounded methodologies.
PDF32September 29, 2025