단일 언어 가정을 넘어서: 대규모 언어 모델 시대의 코드 전환 NLP 연구 동향
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
October 8, 2025
저자: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI
초록
코드 스위칭(Code-switching, CSW)은 단일 발화 내에서 언어와 문자 체계를 교대로 사용하는 현상으로, 대규모 언어 모델(LLMs)의 급속한 발전 속에서도 다국어 NLP의 근본적인 과제로 남아 있습니다. 대부분의 LLMs는 혼합 언어 입력, 제한된 CSW 데이터셋, 평가 편향에 어려움을 겪으며, 이는 다국어 사회에서의 배포를 방해하고 있습니다. 본 조사는 CSW를 고려한 LLM 연구에 대한 첫 번째 포괄적인 분석을 제공하며, 5개의 연구 영역, 12개의 NLP 작업, 30개 이상의 데이터셋, 80개 이상의 언어를 아우르는 독자적인 연구들을 검토합니다. 우리는 최근의 발전을 아키텍처, 훈련 전략, 평가 방법론에 따라 분류하고, LLMs가 CSW 모델링을 어떻게 재구성했으며 어떤 과제들이 여전히 남아 있는지 개요를 제시합니다. 이 논문은 진정한 다국어 지능을 달성하기 위해 포용적인 데이터셋, 공정한 평가, 언어학적으로 기반을 둔 모델의 필요성을 강조하는 로드맵으로 마무리됩니다. 모든 리소스의 선별된 컬렉션은 https://github.com/lingo-iitgn/awesome-code-mixing/에서 유지됩니다.
English
Code-switching (CSW), the alternation of languages and scripts within a
single utterance, remains a fundamental challenge for multiling ual NLP, even
amidst the rapid advances of large language models (LLMs). Most LLMs still
struggle with mixed-language inputs, limited CSW datasets, and evaluation
biases, hindering deployment in multilingual societies. This survey provides
the first comprehensive analysis of CSW-aware LLM research, reviewing
unique_references studies spanning five research areas, 12 NLP tasks,
30+ datasets, and 80+ languages. We classify recent advances by architecture,
training strategy, and evaluation methodology, outlining how LLMs have reshaped
CSW modeling and what challenges persist. The paper concludes with a roadmap
emphasizing the need for inclusive datasets, fair evaluation, and
linguistically grounded models to achieve truly multilingual intelligence. A
curated collection of all resources is maintained at
https://github.com/lingo-iitgn/awesome-code-mixing/.