Decodificando a Diversidade: Uma Análise do Panorama de Pesquisa em IA no Contexto Índico

Resumo

Este artigo de revisão oferece uma visão abrangente das direções de pesquisa em modelos de linguagem de grande escala (LLM) para línguas indianas. As línguas indianas são aquelas faladas no subcontinente indiano, incluindo Índia, Paquistão, Bangladesh, Sri Lanka, Nepal e Butão, entre outros. Essas línguas possuem um rico patrimônio cultural e linguístico e são faladas por mais de 1,5 bilhão de pessoas em todo o mundo. Com o enorme potencial de mercado e a crescente demanda por aplicações baseadas em processamento de linguagem natural (PLN) em diversas línguas, as aplicações generativas para línguas indianas apresentam desafios e oportunidades únicos para a pesquisa. Nosso artigo explora em profundidade os avanços recentes na modelagem generativa para línguas indianas, contribuindo com uma taxonomia das direções de pesquisa e catalogando 84 publicações recentes. As direções de pesquisa abordadas neste artigo incluem o desenvolvimento de LLMs, o ajuste fino de LLMs existentes, o desenvolvimento de corpora, a criação de benchmarks e avaliações, além de publicações sobre técnicas, ferramentas e aplicações específicas. Constatamos que os pesquisadores, ao longo das publicações, destacam os desafios associados à disponibilidade limitada de dados, à falta de padronização e às complexidades linguísticas peculiares das línguas indianas. Este trabalho visa servir como um recurso valioso para pesquisadores e profissionais que atuam no campo do PLN, especialmente aqueles focados em línguas indianas, e contribui para o desenvolvimento de aplicações de LLM mais precisas e eficientes para essas línguas.

English

This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.

Decodificando a Diversidade: Uma Análise do Panorama de Pesquisa em IA no Contexto Índico

Decoding the Diversity: A Review of the Indic AI Research Landscape

Resumo

Support