ChatPaper.aiChatPaper

Descifrando la Diversidad: Una Revisión del Panorama de la Investigación en IA en la India

Decoding the Diversity: A Review of the Indic AI Research Landscape

June 13, 2024
Autores: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI

Resumen

Este artículo de revisión ofrece una visión integral de las direcciones de investigación en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) para lenguas índicas. Las lenguas índicas son aquellas habladas en el subcontinente indio, incluyendo India, Pakistán, Bangladesh, Sri Lanka, Nepal y Bután, entre otros. Estas lenguas poseen un rico patrimonio cultural y lingüístico y son habladas por más de 1.500 millones de personas en todo el mundo. Con el enorme potencial de mercado y la creciente demanda de aplicaciones basadas en procesamiento de lenguaje natural (NLP) para diversos idiomas, las aplicaciones generativas para lenguas índicas presentan desafíos y oportunidades únicas para la investigación. Nuestro artículo profundiza en los avances recientes en modelado generativo para lenguas índicas, contribuyendo con una taxonomía de direcciones de investigación y tabulando 84 publicaciones recientes. Las áreas de investigación analizadas en este documento incluyen el desarrollo de LLM, el ajuste fino de LLM existentes, la creación de corpus, la evaluación comparativa y la evaluación, así como publicaciones sobre técnicas, herramientas y aplicaciones específicas. Observamos que los investigadores en estas publicaciones destacan los desafíos asociados con la disponibilidad limitada de datos, la falta de estandarización y las complejidades lingüísticas particulares de las lenguas índicas. Este trabajo pretende servir como un recurso valioso para investigadores y profesionales en el campo del NLP, especialmente aquellos enfocados en lenguas índicas, y contribuir al desarrollo de aplicaciones de LLM más precisas y eficientes para estos idiomas.
English
This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.

Summary

AI-Generated Summary

PDF51December 6, 2024