За пределами монолингвальных допущений: обзор обработки смешанного кода в NLP в эпоху крупных языковых моделей
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
October 8, 2025
Авторы: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI
Аннотация
Кодовое переключение (CSW), то есть чередование языков и письменностей в рамках одного высказывания, остается фундаментальной проблемой для многоязычной обработки естественного языка (NLP), даже на фоне стремительного прогресса крупных языковых моделей (LLM). Большинство LLM по-прежнему испытывают трудности с обработкой смешанных языковых входных данных, ограниченными наборами данных для CSW и предвзятостью оценки, что затрудняет их внедрение в многоязычных обществах. Этот обзор представляет собой первый всесторонний анализ исследований LLM с учетом CSW, охватывающий уникальные исследования в пяти областях, 12 задачах NLP, более 30 наборах данных и более 80 языках. Мы классифицируем последние достижения по архитектуре, стратегии обучения и методологии оценки, описывая, как LLM изменили моделирование CSW и какие вызовы остаются актуальными. В заключение статьи предлагается дорожная карта, подчеркивающая необходимость создания инклюзивных наборов данных, справедливой оценки и лингвистически обоснованных моделей для достижения подлинного многоязычного интеллекта. Все ресурсы собраны и поддерживаются по адресу: https://github.com/lingo-iitgn/awesome-code-mixing/.
English
Code-switching (CSW), the alternation of languages and scripts within a
single utterance, remains a fundamental challenge for multiling ual NLP, even
amidst the rapid advances of large language models (LLMs). Most LLMs still
struggle with mixed-language inputs, limited CSW datasets, and evaluation
biases, hindering deployment in multilingual societies. This survey provides
the first comprehensive analysis of CSW-aware LLM research, reviewing
unique_references studies spanning five research areas, 12 NLP tasks,
30+ datasets, and 80+ languages. We classify recent advances by architecture,
training strategy, and evaluation methodology, outlining how LLMs have reshaped
CSW modeling and what challenges persist. The paper concludes with a roadmap
emphasizing the need for inclusive datasets, fair evaluation, and
linguistically grounded models to achieve truly multilingual intelligence. A
curated collection of all resources is maintained at
https://github.com/lingo-iitgn/awesome-code-mixing/.