Voorbij Monolinguale Aannames: Een Overzicht van Code-Switching in NLP in het Tijdperk van Grote Taalmodellen
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
October 8, 2025
Auteurs: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI
Samenvatting
Codewisseling (CSW), het afwisselen van talen en schriften binnen een enkele uiting, blijft een fundamentele uitdaging voor meertalige NLP, zelfs te midden van de snelle vooruitgang van grote taalmmodellen (LLM's). De meeste LLM's worstelen nog steeds met gemengde taalinputs, beperkte CSW-datasets en evaluatievooroordelen, wat de inzet in meertalige samenlevingen belemmert. Dit overzicht biedt de eerste uitgebreide analyse van CSW-bewust LLM-onderzoek, waarbij unieke_referentiestudies worden besproken die vijf onderzoeksgebieden, 12 NLP-taken, 30+ datasets en 80+ talen omvatten. We classificeren recente vooruitgang op basis van architectuur, trainingsstrategie en evaluatiemethodologie, en schetsen hoe LLM's CSW-modellering hebben hervormd en welke uitdagingen blijven bestaan. Het artikel sluit af met een routekaart die de noodzaak benadrukt van inclusieve datasets, eerlijke evaluatie en taalkundig onderbouwde modellen om echt meertalige intelligentie te bereiken. Een gecureerde verzameling van alle bronnen wordt onderhouden op https://github.com/lingo-iitgn/awesome-code-mixing/.
English
Code-switching (CSW), the alternation of languages and scripts within a
single utterance, remains a fundamental challenge for multiling ual NLP, even
amidst the rapid advances of large language models (LLMs). Most LLMs still
struggle with mixed-language inputs, limited CSW datasets, and evaluation
biases, hindering deployment in multilingual societies. This survey provides
the first comprehensive analysis of CSW-aware LLM research, reviewing
unique_references studies spanning five research areas, 12 NLP tasks,
30+ datasets, and 80+ languages. We classify recent advances by architecture,
training strategy, and evaluation methodology, outlining how LLMs have reshaped
CSW modeling and what challenges persist. The paper concludes with a roadmap
emphasizing the need for inclusive datasets, fair evaluation, and
linguistically grounded models to achieve truly multilingual intelligence. A
curated collection of all resources is maintained at
https://github.com/lingo-iitgn/awesome-code-mixing/.