ChatPaper.aiChatPaper

Além das Suposições Monolíngues: Uma Análise do NLP com Alternância de Código na Era dos Modelos de Linguagem de Grande Escala

Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

October 8, 2025
Autores: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI

Resumo

A alternância de código (CSW, do inglês Code-Switching), que consiste na alternância de idiomas e scripts dentro de uma única expressão, continua sendo um desafio fundamental para o PLN (Processamento de Linguagem Natural) multilíngue, mesmo diante dos rápidos avanços dos grandes modelos de linguagem (LLMs, do inglês Large Language Models). A maioria dos LLMs ainda enfrenta dificuldades com entradas de linguagem mista, conjuntos de dados limitados para CSW e vieses de avaliação, o que dificulta sua implantação em sociedades multilíngues. Esta pesquisa oferece a primeira análise abrangente de estudos sobre LLMs conscientes de CSW, revisando estudos únicos que abrangem cinco áreas de pesquisa, 12 tarefas de PLN, mais de 30 conjuntos de dados e mais de 80 idiomas. Classificamos os avanços recentes por arquitetura, estratégia de treinamento e metodologia de avaliação, destacando como os LLMs remodelaram a modelagem de CSW e quais desafios persistem. O artigo conclui com um roteiro que enfatiza a necessidade de conjuntos de dados inclusivos, avaliação justa e modelos linguisticamente fundamentados para alcançar uma inteligência verdadeiramente multilíngue. Uma coleção curada de todos os recursos é mantida em https://github.com/lingo-iitgn/awesome-code-mixing/.
English
Code-switching (CSW), the alternation of languages and scripts within a single utterance, remains a fundamental challenge for multiling ual NLP, even amidst the rapid advances of large language models (LLMs). Most LLMs still struggle with mixed-language inputs, limited CSW datasets, and evaluation biases, hindering deployment in multilingual societies. This survey provides the first comprehensive analysis of CSW-aware LLM research, reviewing unique_references studies spanning five research areas, 12 NLP tasks, 30+ datasets, and 80+ languages. We classify recent advances by architecture, training strategy, and evaluation methodology, outlining how LLMs have reshaped CSW modeling and what challenges persist. The paper concludes with a roadmap emphasizing the need for inclusive datasets, fair evaluation, and linguistically grounded models to achieve truly multilingual intelligence. A curated collection of all resources is maintained at https://github.com/lingo-iitgn/awesome-code-mixing/.
PDF32October 9, 2025