Decodificando a Diversidade: Uma Análise do Panorama de Pesquisa em IA no Contexto Índico
Decoding the Diversity: A Review of the Indic AI Research Landscape
June 13, 2024
Autores: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI
Resumo
Este artigo de revisão oferece uma visão abrangente das direções de pesquisa em modelos de linguagem de grande escala (LLM) para línguas indianas. As línguas indianas são aquelas faladas no subcontinente indiano, incluindo Índia, Paquistão, Bangladesh, Sri Lanka, Nepal e Butão, entre outros. Essas línguas possuem um rico patrimônio cultural e linguístico e são faladas por mais de 1,5 bilhão de pessoas em todo o mundo. Com o enorme potencial de mercado e a crescente demanda por aplicações baseadas em processamento de linguagem natural (PLN) em diversas línguas, as aplicações generativas para línguas indianas apresentam desafios e oportunidades únicos para a pesquisa. Nosso artigo explora em profundidade os avanços recentes na modelagem generativa para línguas indianas, contribuindo com uma taxonomia das direções de pesquisa e catalogando 84 publicações recentes. As direções de pesquisa abordadas neste artigo incluem o desenvolvimento de LLMs, o ajuste fino de LLMs existentes, o desenvolvimento de corpora, a criação de benchmarks e avaliações, além de publicações sobre técnicas, ferramentas e aplicações específicas. Constatamos que os pesquisadores, ao longo das publicações, destacam os desafios associados à disponibilidade limitada de dados, à falta de padronização e às complexidades linguísticas peculiares das línguas indianas. Este trabalho visa servir como um recurso valioso para pesquisadores e profissionais que atuam no campo do PLN, especialmente aqueles focados em línguas indianas, e contribui para o desenvolvimento de aplicações de LLM mais precisas e eficientes para essas línguas.
English
This review paper provides a comprehensive overview of large language model
(LLM) research directions within Indic languages. Indic languages are those
spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri
Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural
and linguistic heritage and are spoken by over 1.5 billion people worldwide.
With the tremendous market potential and growing demand for natural language
processing (NLP) based applications in diverse languages, generative
applications for Indic languages pose unique challenges and opportunities for
research. Our paper deep dives into the recent advancements in Indic generative
modeling, contributing with a taxonomy of research directions, tabulating 84
recent publications. Research directions surveyed in this paper include LLM
development, fine-tuning existing LLMs, development of corpora, benchmarking
and evaluation, as well as publications around specific techniques, tools, and
applications. We found that researchers across the publications emphasize the
challenges associated with limited data availability, lack of standardization,
and the peculiar linguistic complexities of Indic languages. This work aims to
serve as a valuable resource for researchers and practitioners working in the
field of NLP, particularly those focused on Indic languages, and contributes to
the development of more accurate and efficient LLM applications for these
languages.