ChatPaper.aiChatPaper

Sprachchirurgie in mehrsprachigen großen Sprachmodellen

Language Surgery in Multilingual Large Language Models

June 14, 2025
papers.authors: Joanito Agili Lopo, Muhammad Ravi Shulthan Habibi, Tack Hwa Wong, Muhammad Ilham Ghozali, Fajri Koto, Genta Indra Winata, Peerat Limkonchotiwat, Alham Fikri Aji, Samuel Cahyawijaya
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Generalisierungsfähigkeiten über Aufgaben und Sprachen hinweg demonstriert und damit die natürliche Sprachverarbeitung revolutioniert. Diese Arbeit untersucht die natürlich entstehende Repräsentationsausrichtung in LLMs, insbesondere in den mittleren Schichten, und ihre Implikationen für die Trennung von sprachspezifischen und sprachunabhängigen Informationen. Wir bestätigen empirisch die Existenz dieser Ausrichtung, analysieren ihr Verhalten im Vergleich zu explizit entworfenen Ausrichtungsmodellen und demonstrieren ihr Potenzial für sprachspezifische Manipulation ohne semantische Verschlechterung. Aufbauend auf diesen Erkenntnissen schlagen wir Inference-Time Language Control (ITLC) vor, eine neuartige Methode, die latente Injektion nutzt, um präzise cross-linguale Sprachsteuerung zu ermöglichen und Sprachverwirrung in LLMs zu mildern. Unsere Experimente unterstreichen die starken cross-lingualen Steuerungsfähigkeiten von ITLC bei gleichzeitiger Wahrung der semantischen Integrität in den Zielsprachen. Darüber hinaus zeigen wir seine Wirksamkeit bei der Linderung des Problems der cross-lingualen Sprachverwirrung, das selbst in aktuellen großskaligen LLMs bestehen bleibt und zu inkonsistenter Sprachgeneration führt. Diese Arbeit erweitert unser Verständnis der Repräsentationsausrichtung in LLMs und führt eine praktische Lösung zur Verbesserung ihrer cross-lingualen Leistung ein.
English
Large Language Models (LLMs) have demonstrated remarkable generalization capabilities across tasks and languages, revolutionizing natural language processing. This paper investigates the naturally emerging representation alignment in LLMs, particularly in the middle layers, and its implications for disentangling language-specific and language-agnostic information. We empirically confirm the existence of this alignment, analyze its behavior in comparison to explicitly designed alignment models, and demonstrate its potential for language-specific manipulation without semantic degradation. Building on these findings, we propose Inference-Time Language Control (ITLC), a novel method that leverages latent injection to enable precise cross-lingual language control and mitigate language confusion in LLMs. Our experiments highlight ITLC's strong cross-lingual control capabilities while preserving semantic integrity in target languages. Furthermore, we demonstrate its effectiveness in alleviating the cross-lingual language confusion problem, which persists even in current large-scale LLMs, leading to inconsistent language generation. This work advances our understanding of representation alignment in LLMs and introduces a practical solution for enhancing their cross-lingual performance.
PDF162June 17, 2025