ChatPaper.aiChatPaper

Persi nella Miscela: Valutazione della Comprensione del Testo Code-Switched da parte dei Modelli Linguistici di Grande Dimensione

Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text

June 16, 2025
Autori: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI

Abstract

Il code-switching (CSW) è l'atto di alternare due o più lingue all'interno di un singolo discorso. Questo fenomeno è diffuso nelle comunità multilingue e sempre più presente nei contenuti online, dove gli utenti mescolano naturalmente le lingue nella comunicazione quotidiana. Di conseguenza, i Large Language Models (LLM), oggi centrali nell'elaborazione e generazione di contenuti, sono frequentemente esposti a input con code-switching. Data la loro ampia diffusione, è cruciale comprendere come i LLM elaborano e ragionano su testi misti in più lingue. Questo articolo presenta una valutazione sistematica della comprensione dei LLM in contesti di code-switching, generando varianti CSW di benchmark consolidati per il ragionamento e la comprensione. Sebbene si osservi un degrado quando token stranieri interrompono il testo in inglese—anche in presenza di vincoli linguistici—l'inserimento dell'inglese in altre lingue spesso migliora la comprensione. Sebbene il prompting produca risultati contrastanti, il fine-tuning offre un percorso più stabile per mitigare il degrado.
English
Code-switching (CSW) is the act of alternating between two or more languages within a single discourse. This phenomenon is widespread in multilingual communities, and increasingly prevalent in online content, where users naturally mix languages in everyday communication. As a result, Large Language Models (LLMs), now central to content processing and generation, are frequently exposed to code-switched inputs. Given their widespread use, it is crucial to understand how LLMs process and reason about such mixed-language text. This paper presents a systematic evaluation of LLM comprehension under code-switching by generating CSW variants of established reasoning and comprehension benchmarks. While degradation is evident when foreign tokens disrupt English textx2013even under linguistic constraintsx2013embedding English into other languages often improves comprehension. Though prompting yields mixed results, fine-tuning offers a more stable path to degradation mitigation.
PDF92June 25, 2025