Descifrando la Diversidad: Una Revisión del Panorama de la Investigación en IA en la India
Decoding the Diversity: A Review of the Indic AI Research Landscape
June 13, 2024
Autores: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI
Resumen
Este artículo de revisión ofrece una visión integral de las direcciones de investigación en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) para lenguas índicas. Las lenguas índicas son aquellas habladas en el subcontinente indio, incluyendo India, Pakistán, Bangladesh, Sri Lanka, Nepal y Bután, entre otros. Estas lenguas poseen un rico patrimonio cultural y lingüístico y son habladas por más de 1.500 millones de personas en todo el mundo. Con el enorme potencial de mercado y la creciente demanda de aplicaciones basadas en procesamiento de lenguaje natural (NLP) para diversos idiomas, las aplicaciones generativas para lenguas índicas presentan desafíos y oportunidades únicas para la investigación. Nuestro artículo profundiza en los avances recientes en modelado generativo para lenguas índicas, contribuyendo con una taxonomía de direcciones de investigación y tabulando 84 publicaciones recientes. Las áreas de investigación analizadas en este documento incluyen el desarrollo de LLM, el ajuste fino de LLM existentes, la creación de corpus, la evaluación comparativa y la evaluación, así como publicaciones sobre técnicas, herramientas y aplicaciones específicas. Observamos que los investigadores en estas publicaciones destacan los desafíos asociados con la disponibilidad limitada de datos, la falta de estandarización y las complejidades lingüísticas particulares de las lenguas índicas. Este trabajo pretende servir como un recurso valioso para investigadores y profesionales en el campo del NLP, especialmente aquellos enfocados en lenguas índicas, y contribuir al desarrollo de aplicaciones de LLM más precisas y eficientes para estos idiomas.
English
This review paper provides a comprehensive overview of large language model
(LLM) research directions within Indic languages. Indic languages are those
spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri
Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural
and linguistic heritage and are spoken by over 1.5 billion people worldwide.
With the tremendous market potential and growing demand for natural language
processing (NLP) based applications in diverse languages, generative
applications for Indic languages pose unique challenges and opportunities for
research. Our paper deep dives into the recent advancements in Indic generative
modeling, contributing with a taxonomy of research directions, tabulating 84
recent publications. Research directions surveyed in this paper include LLM
development, fine-tuning existing LLMs, development of corpora, benchmarking
and evaluation, as well as publications around specific techniques, tools, and
applications. We found that researchers across the publications emphasize the
challenges associated with limited data availability, lack of standardization,
and the peculiar linguistic complexities of Indic languages. This work aims to
serve as a valuable resource for researchers and practitioners working in the
field of NLP, particularly those focused on Indic languages, and contributes to
the development of more accurate and efficient LLM applications for these
languages.Summary
AI-Generated Summary