Oltre le ipotesi monolingui: una rassegna sull'elaborazione del linguaggio naturale con alternanza di codici nell'era dei modelli linguistici su larga scala
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
October 8, 2025
Autori: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI
Abstract
Il code-switching (CSW), ovvero l'alternanza di lingue e script all'interno di un singolo enunciato, rimane una sfida fondamentale per l'elaborazione del linguaggio naturale (NLP) multilingue, nonostante i rapidi progressi dei grandi modelli linguistici (LLM). La maggior parte degli LLM continua a lottare con input in lingue miste, dataset limitati per il CSW e bias di valutazione, ostacolando il loro utilizzo in società multilingue. Questo studio fornisce la prima analisi completa della ricerca sugli LLM consapevoli del CSW, esaminando studi unici che coprono cinque aree di ricerca, 12 task di NLP, oltre 30 dataset e più di 80 lingue. Classifichiamo i recenti progressi in base all'architettura, alla strategia di addestramento e alla metodologia di valutazione, delineando come gli LLM abbiano ridefinito la modellazione del CSW e quali sfide persistano. Il documento si conclude con una roadmap che sottolinea la necessità di dataset inclusivi, valutazioni eque e modelli linguisticamente fondati per raggiungere una vera intelligenza multilingue. Una raccolta curata di tutte le risorse è mantenuta all'indirizzo https://github.com/lingo-iitgn/awesome-code-mixing/.
English
Code-switching (CSW), the alternation of languages and scripts within a
single utterance, remains a fundamental challenge for multiling ual NLP, even
amidst the rapid advances of large language models (LLMs). Most LLMs still
struggle with mixed-language inputs, limited CSW datasets, and evaluation
biases, hindering deployment in multilingual societies. This survey provides
the first comprehensive analysis of CSW-aware LLM research, reviewing
unique_references studies spanning five research areas, 12 NLP tasks,
30+ datasets, and 80+ languages. We classify recent advances by architecture,
training strategy, and evaluation methodology, outlining how LLMs have reshaped
CSW modeling and what challenges persist. The paper concludes with a roadmap
emphasizing the need for inclusive datasets, fair evaluation, and
linguistically grounded models to achieve truly multilingual intelligence. A
curated collection of all resources is maintained at
https://github.com/lingo-iitgn/awesome-code-mixing/.