ChatPaper.aiChatPaper

За пределами монолингвальных допущений: обзор обработки смешанного кода в NLP в эпоху крупных языковых моделей

Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

October 8, 2025
Авторы: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI

Аннотация

Кодовое переключение (CSW), то есть чередование языков и письменностей в рамках одного высказывания, остается фундаментальной проблемой для многоязычной обработки естественного языка (NLP), даже на фоне стремительного прогресса крупных языковых моделей (LLM). Большинство LLM по-прежнему испытывают трудности с обработкой смешанных языковых входных данных, ограниченными наборами данных для CSW и предвзятостью оценки, что затрудняет их внедрение в многоязычных обществах. Этот обзор представляет собой первый всесторонний анализ исследований LLM с учетом CSW, охватывающий уникальные исследования в пяти областях, 12 задачах NLP, более 30 наборах данных и более 80 языках. Мы классифицируем последние достижения по архитектуре, стратегии обучения и методологии оценки, описывая, как LLM изменили моделирование CSW и какие вызовы остаются актуальными. В заключение статьи предлагается дорожная карта, подчеркивающая необходимость создания инклюзивных наборов данных, справедливой оценки и лингвистически обоснованных моделей для достижения подлинного многоязычного интеллекта. Все ресурсы собраны и поддерживаются по адресу: https://github.com/lingo-iitgn/awesome-code-mixing/.
English
Code-switching (CSW), the alternation of languages and scripts within a single utterance, remains a fundamental challenge for multiling ual NLP, even amidst the rapid advances of large language models (LLMs). Most LLMs still struggle with mixed-language inputs, limited CSW datasets, and evaluation biases, hindering deployment in multilingual societies. This survey provides the first comprehensive analysis of CSW-aware LLM research, reviewing unique_references studies spanning five research areas, 12 NLP tasks, 30+ datasets, and 80+ languages. We classify recent advances by architecture, training strategy, and evaluation methodology, outlining how LLMs have reshaped CSW modeling and what challenges persist. The paper concludes with a roadmap emphasizing the need for inclusive datasets, fair evaluation, and linguistically grounded models to achieve truly multilingual intelligence. A curated collection of all resources is maintained at https://github.com/lingo-iitgn/awesome-code-mixing/.
PDF22October 9, 2025