Jenseits monolingualer Annahmen: Eine Übersicht über Code-Switching in der NLP im Zeitalter großer Sprachmodelle
Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models
October 8, 2025
papers.authors: Rajvee Sheth, Samridhi Raj Sinha, Mahavir Patil, Himanshu Beniwal, Mayank Singh
cs.AI
papers.abstract
Code-Switching (CSW), der Wechsel zwischen Sprachen und Schriftsystemen innerhalb einer einzelnen Äußerung, bleibt eine grundlegende Herausforderung für die mehrsprachige NLP, selbst angesichts der rasanten Fortschritte bei großen Sprachmodellen (LLMs). Die meisten LLMs haben nach wie vor Schwierigkeiten mit gemischtsprachigen Eingaben, begrenzten CSW-Datensätzen und Bewertungsverzerrungen, was den Einsatz in mehrsprachigen Gesellschaften behindert. Diese Übersichtsarbeit bietet die erste umfassende Analyse der CSW-bewussten LLM-Forschung und untersucht einzigartige Studien, die fünf Forschungsbereiche, 12 NLP-Aufgaben, über 30 Datensätze und mehr als 80 Sprachen abdecken. Wir klassifizieren die jüngsten Fortschritte nach Architektur, Trainingsstrategie und Evaluierungsmethodik und skizzieren, wie LLMs die CSW-Modellierung neu gestaltet haben und welche Herausforderungen bestehen bleiben. Die Arbeit schließt mit einem Fahrplan, der die Notwendigkeit inklusiver Datensätze, fairer Bewertungen und linguistisch fundierter Modelle betont, um eine wirklich mehrsprachige Intelligenz zu erreichen. Eine kuratierte Sammlung aller Ressourcen wird unter https://github.com/lingo-iitgn/awesome-code-mixing/ gepflegt.
English
Code-switching (CSW), the alternation of languages and scripts within a
single utterance, remains a fundamental challenge for multiling ual NLP, even
amidst the rapid advances of large language models (LLMs). Most LLMs still
struggle with mixed-language inputs, limited CSW datasets, and evaluation
biases, hindering deployment in multilingual societies. This survey provides
the first comprehensive analysis of CSW-aware LLM research, reviewing
unique_references studies spanning five research areas, 12 NLP tasks,
30+ datasets, and 80+ languages. We classify recent advances by architecture,
training strategy, and evaluation methodology, outlining how LLMs have reshaped
CSW modeling and what challenges persist. The paper concludes with a roadmap
emphasizing the need for inclusive datasets, fair evaluation, and
linguistically grounded models to achieve truly multilingual intelligence. A
curated collection of all resources is maintained at
https://github.com/lingo-iitgn/awesome-code-mixing/.