다양성 해독: 인도 AI 연구 현황 리뷰
Decoding the Diversity: A Review of the Indic AI Research Landscape
June 13, 2024
저자: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI
초록
이 리뷰 논문은 인도계 언어(Indic languages) 내에서의 대규모 언어 모델(LLM) 연구 방향에 대한 포괄적인 개요를 제공합니다. 인도계 언어는 인도, 파키스탄, 방글라데시, 스리랑카, 네팔, 부탄 등을 포함한 인도 아대륙에서 사용되는 언어들로, 풍부한 문화적 및 언어적 유산을 지니며 전 세계적으로 15억 명 이상의 사람들이 사용하고 있습니다. 다양한 언어에 대한 자연어 처리(NLP) 기반 애플리케이션의 엄청난 시장 잠재력과 증가하는 수요로 인해, 인도계 언어를 위한 생성형 애플리케이션은 연구에 있어 독특한 도전과 기회를 제공합니다. 본 논문은 최근의 인도계 생성 모델링 발전을 심층적으로 탐구하며, 84편의 최신 논문을 표로 정리한 연구 방향의 분류체계를 제시합니다. 이 논문에서 조사된 연구 방향에는 LLM 개발, 기존 LLM의 미세 조정, 코퍼스 개발, 벤치마킹 및 평가, 그리고 특정 기술, 도구 및 애플리케이션에 관한 논문들이 포함됩니다. 우리는 논문들 전반에 걸쳐 연구자들이 제한된 데이터 가용성, 표준화의 부재, 그리고 인도계 언어의 독특한 언어적 복잡성과 관련된 도전을 강조하고 있음을 발견했습니다. 이 작업은 NLP 분야, 특히 인도계 언어에 초점을 맞춘 연구자 및 실무자들에게 유용한 자료로 활용되며, 이러한 언어들을 위한 더 정확하고 효율적인 LLM 애플리케이션 개발에 기여할 것을 목표로 합니다.
English
This review paper provides a comprehensive overview of large language model
(LLM) research directions within Indic languages. Indic languages are those
spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri
Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural
and linguistic heritage and are spoken by over 1.5 billion people worldwide.
With the tremendous market potential and growing demand for natural language
processing (NLP) based applications in diverse languages, generative
applications for Indic languages pose unique challenges and opportunities for
research. Our paper deep dives into the recent advancements in Indic generative
modeling, contributing with a taxonomy of research directions, tabulating 84
recent publications. Research directions surveyed in this paper include LLM
development, fine-tuning existing LLMs, development of corpora, benchmarking
and evaluation, as well as publications around specific techniques, tools, and
applications. We found that researchers across the publications emphasize the
challenges associated with limited data availability, lack of standardization,
and the peculiar linguistic complexities of Indic languages. This work aims to
serve as a valuable resource for researchers and practitioners working in the
field of NLP, particularly those focused on Indic languages, and contributes to
the development of more accurate and efficient LLM applications for these
languages.Summary
AI-Generated Summary