Het decoderen van diversiteit: Een overzicht van het Indiase AI-onderzoekslandschap

Samenvatting

Dit overzichtsartikel biedt een uitgebreid overzicht van onderzoeksrichtingen op het gebied van grote taalmmodellen (LLM's) voor Indiase talen. Indiase talen zijn de talen die worden gesproken op het Indiase subcontinent, waaronder India, Pakistan, Bangladesh, Sri Lanka, Nepal en Bhutan, onder andere. Deze talen hebben een rijke culturele en linguïstische erfenis en worden wereldwijd door meer dan 1,5 miljard mensen gesproken. Met het enorme marktpotentieel en de groeiende vraag naar op natuurlijke taalverwerking (NLP) gebaseerde toepassingen in diverse talen, bieden generatieve toepassingen voor Indiase talen unieke uitdagingen en kansen voor onderzoek. Ons artikel duikt diep in de recente ontwikkelingen op het gebied van generatieve modellering voor Indiase talen, en draagt bij met een taxonomie van onderzoeksrichtingen, waarbij 84 recente publicaties worden getabelleerd. De onderzoeksrichtingen die in dit artikel worden besproken, omvatten de ontwikkeling van LLM's, het finetunen van bestaande LLM's, de ontwikkeling van corpora, benchmarking en evaluatie, evenals publicaties over specifieke technieken, tools en toepassingen. We constateerden dat onderzoekers in de publicaties de nadruk leggen op de uitdagingen die gepaard gaan met beperkte databeschikbaarheid, een gebrek aan standaardisatie en de bijzondere linguïstische complexiteit van Indiase talen. Dit werk beoogt een waardevolle bron te zijn voor onderzoekers en praktijkmensen die werkzaam zijn op het gebied van NLP, met name voor hen die zich richten op Indiase talen, en draagt bij aan de ontwikkeling van nauwkeurigere en efficiëntere LLM-toepassingen voor deze talen.

English

This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.

Het decoderen van diversiteit: Een overzicht van het Indiase AI-onderzoekslandschap

Decoding the Diversity: A Review of the Indic AI Research Landscape

Samenvatting

Support