Más allá de los supuestos monolingües: Una revisión del procesamiento del lenguaje natural con cambio de código en la era de los modelos de lenguaje a gran escala
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
October 8, 2025
Autores: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI
Resumen
El cambio de código (CSW, por sus siglas en inglés), la alternancia de idiomas y escrituras dentro de una misma expresión, sigue siendo un desafío fundamental para el procesamiento del lenguaje natural (PLN) multilingüe, incluso ante los rápidos avances de los modelos de lenguaje de gran escala (LLMs). La mayoría de los LLMs aún tienen dificultades con entradas en idiomas mixtos, conjuntos de datos limitados para CSW y sesgos en la evaluación, lo que obstaculiza su implementación en sociedades multilingües. Este estudio ofrece el primer análisis exhaustivo de la investigación en LLMs conscientes del CSW, revisando estudios únicos que abarcan cinco áreas de investigación, 12 tareas de PLN, más de 30 conjuntos de datos y más de 80 idiomas. Clasificamos los avances recientes según la arquitectura, la estrategia de entrenamiento y la metodología de evaluación, destacando cómo los LLMs han transformado el modelado del CSW y qué desafíos persisten. El artículo concluye con una hoja de ruta que enfatiza la necesidad de conjuntos de datos inclusivos, evaluaciones justas y modelos fundamentados lingüísticamente para alcanzar una inteligencia verdaderamente multilingüe. Una colección curada de todos los recursos se mantiene en https://github.com/lingo-iitgn/awesome-code-mixing/.
English
Code-switching (CSW), the alternation of languages and scripts within a
single utterance, remains a fundamental challenge for multiling ual NLP, even
amidst the rapid advances of large language models (LLMs). Most LLMs still
struggle with mixed-language inputs, limited CSW datasets, and evaluation
biases, hindering deployment in multilingual societies. This survey provides
the first comprehensive analysis of CSW-aware LLM research, reviewing
unique_references studies spanning five research areas, 12 NLP tasks,
30+ datasets, and 80+ languages. We classify recent advances by architecture,
training strategy, and evaluation methodology, outlining how LLMs have reshaped
CSW modeling and what challenges persist. The paper concludes with a roadmap
emphasizing the need for inclusive datasets, fair evaluation, and
linguistically grounded models to achieve truly multilingual intelligence. A
curated collection of all resources is maintained at
https://github.com/lingo-iitgn/awesome-code-mixing/.