Perdido na Mistura: Avaliando a Compreensão de Textos com Alternância de Código por Modelos de Linguagem de Grande Escala
Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text
June 16, 2025
Autores: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI
Resumo
A alternância de código (CSW) é o ato de alternar entre dois ou mais idiomas dentro de um mesmo discurso. Esse fenômeno é amplamente difundido em comunidades multilíngues e cada vez mais prevalente em conteúdos online, onde os usuários naturalmente misturam idiomas em suas comunicações cotidianas. Como resultado, os Modelos de Linguagem de Grande Escala (LLMs), agora centrais no processamento e geração de conteúdo, são frequentemente expostos a entradas com alternância de código. Dada sua ampla utilização, é crucial entender como os LLMs processam e raciocinam sobre textos misturados em diferentes idiomas. Este artigo apresenta uma avaliação sistemática da compreensão dos LLMs sob alternância de código, gerando variantes CSW de benchmarks estabelecidos de raciocínio e compreensão. Embora a degradação seja evidente quando tokens estrangeiros interrompem textos em inglês—mesmo sob restrições linguísticas—a incorporação do inglês em outros idiomas frequentemente melhora a compreensão. Embora o prompting produza resultados mistos, o fine-tuning oferece um caminho mais estável para mitigar a degradação.
English
Code-switching (CSW) is the act of alternating between two or more languages
within a single discourse. This phenomenon is widespread in multilingual
communities, and increasingly prevalent in online content, where users
naturally mix languages in everyday communication. As a result, Large Language
Models (LLMs), now central to content processing and generation, are frequently
exposed to code-switched inputs. Given their widespread use, it is crucial to
understand how LLMs process and reason about such mixed-language text. This
paper presents a systematic evaluation of LLM comprehension under
code-switching by generating CSW variants of established reasoning and
comprehension benchmarks. While degradation is evident when foreign tokens
disrupt English textx2013even under linguistic
constraintsx2013embedding English into other languages often
improves comprehension. Though prompting yields mixed results, fine-tuning
offers a more stable path to degradation mitigation.