ChatPaper.aiChatPaper

Потеряно в смешении: оценка понимания языковыми моделями текста с код-свитчингом

Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text

June 16, 2025
Авторы: Amr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang
cs.AI

Аннотация

Кодовое переключение (CSW) — это практика чередования двух или более языков в рамках одного дискурса. Это явление широко распространено в многоязычных сообществах и становится всё более частым в онлайн-контенте, где пользователи естественным образом смешивают языки в повседневном общении. В результате крупные языковые модели (LLM), которые сейчас играют ключевую роль в обработке и генерации контента, часто сталкиваются с входами, содержащими кодовое переключение. Учитывая их широкое использование, крайне важно понять, как LLM обрабатывают и анализируют такие смешанные тексты. В данной статье представлена систематическая оценка понимания LLM в условиях кодового переключения путём создания CSW-вариантов устоявшихся тестов на логическое мышление и понимание. Хотя ухудшение результатов наблюдается, когда иностранные элементы нарушают структуру английского текста — даже при наличии лингвистических ограничений — встраивание английского в другие языки часто улучшает понимание. Хотя использование подсказок даёт неоднозначные результаты, тонкая настройка моделей предлагает более стабильный путь для смягчения ухудшения.
English
Code-switching (CSW) is the act of alternating between two or more languages within a single discourse. This phenomenon is widespread in multilingual communities, and increasingly prevalent in online content, where users naturally mix languages in everyday communication. As a result, Large Language Models (LLMs), now central to content processing and generation, are frequently exposed to code-switched inputs. Given their widespread use, it is crucial to understand how LLMs process and reason about such mixed-language text. This paper presents a systematic evaluation of LLM comprehension under code-switching by generating CSW variants of established reasoning and comprehension benchmarks. While degradation is evident when foreign tokens disrupt English textx2013even under linguistic constraintsx2013embedding English into other languages often improves comprehension. Though prompting yields mixed results, fine-tuning offers a more stable path to degradation mitigation.
PDF91June 25, 2025