Het decoderen van diversiteit: Een overzicht van het Indiase AI-onderzoekslandschap
Decoding the Diversity: A Review of the Indic AI Research Landscape
June 13, 2024
Auteurs: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI
Samenvatting
Dit overzichtsartikel biedt een uitgebreid overzicht van onderzoeksrichtingen op het gebied van grote taalmmodellen (LLM's) voor Indiase talen. Indiase talen zijn de talen die worden gesproken op het Indiase subcontinent, waaronder India, Pakistan, Bangladesh, Sri Lanka, Nepal en Bhutan, onder andere. Deze talen hebben een rijke culturele en linguïstische erfenis en worden wereldwijd door meer dan 1,5 miljard mensen gesproken. Met het enorme marktpotentieel en de groeiende vraag naar op natuurlijke taalverwerking (NLP) gebaseerde toepassingen in diverse talen, bieden generatieve toepassingen voor Indiase talen unieke uitdagingen en kansen voor onderzoek. Ons artikel duikt diep in de recente ontwikkelingen op het gebied van generatieve modellering voor Indiase talen, en draagt bij met een taxonomie van onderzoeksrichtingen, waarbij 84 recente publicaties worden getabelleerd. De onderzoeksrichtingen die in dit artikel worden besproken, omvatten de ontwikkeling van LLM's, het finetunen van bestaande LLM's, de ontwikkeling van corpora, benchmarking en evaluatie, evenals publicaties over specifieke technieken, tools en toepassingen. We constateerden dat onderzoekers in de publicaties de nadruk leggen op de uitdagingen die gepaard gaan met beperkte databeschikbaarheid, een gebrek aan standaardisatie en de bijzondere linguïstische complexiteit van Indiase talen. Dit werk beoogt een waardevolle bron te zijn voor onderzoekers en praktijkmensen die werkzaam zijn op het gebied van NLP, met name voor hen die zich richten op Indiase talen, en draagt bij aan de ontwikkeling van nauwkeurigere en efficiëntere LLM-toepassingen voor deze talen.
English
This review paper provides a comprehensive overview of large language model
(LLM) research directions within Indic languages. Indic languages are those
spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri
Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural
and linguistic heritage and are spoken by over 1.5 billion people worldwide.
With the tremendous market potential and growing demand for natural language
processing (NLP) based applications in diverse languages, generative
applications for Indic languages pose unique challenges and opportunities for
research. Our paper deep dives into the recent advancements in Indic generative
modeling, contributing with a taxonomy of research directions, tabulating 84
recent publications. Research directions surveyed in this paper include LLM
development, fine-tuning existing LLMs, development of corpora, benchmarking
and evaluation, as well as publications around specific techniques, tools, and
applications. We found that researchers across the publications emphasize the
challenges associated with limited data availability, lack of standardization,
and the peculiar linguistic complexities of Indic languages. This work aims to
serve as a valuable resource for researchers and practitioners working in the
field of NLP, particularly those focused on Indic languages, and contributes to
the development of more accurate and efficient LLM applications for these
languages.