Sprache auf Abruf, Wissen im Kern: Die Kombination von LLMs mit Encoder-Decoder-Übersetzungsmodellen für erweiterbare Mehrsprachigkeit

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen eine starke allgemeine Intelligenz, doch ihre mehrsprachige Leistungsfähigkeit bleibt hochgradig unausgewogen. Obwohl LLMs umfangreiches cross-linguales Wissen in einem einheitlichen semantischen Raum kodieren, haben sie oft Schwierigkeiten, dieses Wissen zuverlässig mit ressourcenarmen oder unbekannten Sprachen zu verbinden. Glücklicherweise verfügen vortrainierte Encoder-Decoder-Übersetzungsmodelle bereits über eine ausgewogene mehrsprachige Fähigkeit, was eine natürliche Ergänzung zu LLMs nahelegt. In dieser Arbeit schlagen wir XBridge vor, eine kompositionelle Encoder-LLM-Decoder-Architektur, die das mehrsprachige Verständnis und die Generierung auf externe vortrainierte Übersetzungsmodelle auslagert, während das LLM als englisch-zentrierter Kern zur Verarbeitung allgemeinen Wissens erhalten bleibt. Um die daraus resultierende Repräsentationsfehlausrichtung zwischen den Modellen zu adressieren, führen wir leichte Cross-Model-Mapping-Schichten und ein auf optimalem Transport basierendes Alignment-Ziel ein, das eine feinkörnige semantische Konsistenz für die mehrsprachige Generierung ermöglicht. Experimente mit vier LLMs in den Bereichen mehrsprachiges Verständnis, Reasoning, Zusammenfassung und Generierung zeigen, dass XBridge starke Baseline-Methoden übertrifft, insbesondere bei ressourcenarmen und zuvor unbekannten Sprachen, ohne das LLM neu trainieren zu müssen.

English

Large language models (LLMs) exhibit strong general intelligence, yet their multilingual performance remains highly imbalanced. Although LLMs encode substantial cross-lingual knowledge in a unified semantic space, they often struggle to reliably interface this knowledge with low-resource or unseen languages. Fortunately, pretrained encoder-decoder translation models already possess balanced multilingual capability, suggesting a natural complement to LLMs. In this work, we propose XBridge, a compositional encoder-LLM-decoder architecture that offloads multilingual understanding and generation to external pretrained translation models, while preserving the LLM as an English-centric core for general knowledge processing. To address the resulting representation misalignment across models, we introduce lightweight cross-model mapping layers and an optimal transport-based alignment objective, enabling fine-grained semantic consistency for multilingual generation. Experiments on four LLMs across multilingual understanding, reasoning, summarization, and generation indicate that XBridge outperforms strong baselines, especially on low-resource and previously unseen languages, without retraining the LLM.

Sprache auf Abruf, Wissen im Kern: Die Kombination von LLMs mit Encoder-Decoder-Übersetzungsmodellen für erweiterbare Mehrsprachigkeit

Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Zusammenfassung

Support