Хирургия языков в многоязычных больших языковых моделях
Language Surgery in Multilingual Large Language Models
June 14, 2025
Авторы: Joanito Agili Lopo, Muhammad Ravi Shulthan Habibi, Tack Hwa Wong, Muhammad Ilham Ghozali, Fajri Koto, Genta Indra Winata, Peerat Limkonchotiwat, Alham Fikri Aji, Samuel Cahyawijaya
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности к обобщению в различных задачах и языках, что произвело революцию в обработке естественного языка. В данной статье исследуется естественно возникающее выравнивание представлений в LLM, особенно в средних слоях, и его значение для разделения языково-специфичной и языково-независимой информации. Мы эмпирически подтверждаем существование такого выравнивания, анализируем его поведение в сравнении с явно спроектированными моделями выравнивания и демонстрируем его потенциал для языково-специфичного манипулирования без ухудшения семантики. На основе этих результатов мы предлагаем метод управления языком на этапе вывода (Inference-Time Language Control, ITLC), который использует латентное внедрение для обеспечения точного кросс-лингвистического управления языком и снижения языковой путаницы в LLM. Наши эксперименты подчеркивают сильные возможности ITLC в кросс-лингвистическом управлении при сохранении семантической целостности в целевых языках. Кроме того, мы демонстрируем его эффективность в решении проблемы кросс-лингвистической языковой путаницы, которая сохраняется даже в современных крупномасштабных LLM, приводя к несогласованному языковому порождению. Эта работа углубляет наше понимание выравнивания представлений в LLM и предлагает практическое решение для улучшения их кросс-лингвистической производительности.
English
Large Language Models (LLMs) have demonstrated remarkable generalization
capabilities across tasks and languages, revolutionizing natural language
processing. This paper investigates the naturally emerging representation
alignment in LLMs, particularly in the middle layers, and its implications for
disentangling language-specific and language-agnostic information. We
empirically confirm the existence of this alignment, analyze its behavior in
comparison to explicitly designed alignment models, and demonstrate its
potential for language-specific manipulation without semantic degradation.
Building on these findings, we propose Inference-Time Language Control (ITLC),
a novel method that leverages latent injection to enable precise cross-lingual
language control and mitigate language confusion in LLMs. Our experiments
highlight ITLC's strong cross-lingual control capabilities while preserving
semantic integrity in target languages. Furthermore, we demonstrate its
effectiveness in alleviating the cross-lingual language confusion problem,
which persists even in current large-scale LLMs, leading to inconsistent
language generation. This work advances our understanding of representation
alignment in LLMs and introduces a practical solution for enhancing their
cross-lingual performance.