Taal op Aanvraag, Kennis als Kern: Het Combineren van LLM's met Encoder-Decoder Vertaalmodellen voor Uitbreidbare Meertaligheid

Samenvatting

Grote taalmodellen (LLM's) vertonen sterke algemene intelligentie, maar hun meertalige prestaties blijven zeer onevenwichtig. Hoewel LLM's aanzienlijke cross-linguale kennis coderen in een uniforme semantische ruimte, hebben ze vaak moeite om deze kennis betrouwbaar te koppelen aan talen met weinig bronnen of onbekende talen. Gelukkig beschikken vooraf getrainde encoder-decoder-vertaalmodellen reeds over een gebalanceerde meertalige capaciteit, wat een natuurlijke aanvulling op LLM's suggereert. In dit werk stellen we XBridge voor, een compositionele encoder-LLM-decoder-architectuur die meertalig begrip en generatie delegeert aan externe, vooraf getrainde vertaalmodellen, terwijl de LLM behouden blijft als een Engelstalige kern voor algemene kennisverwerking. Om de resulterende representatie-uitlijning tussen modellen aan te pakken, introduceren we lichtgewicht cross-model mapping-lagen en een op optimaal transport gebaseerd aligneringsdoel, waardoor fijnmazige semantische consistentie voor meertalige generatie mogelijk wordt. Experimenten met vier LLM's op het gebied van meertalig begrip, redeneren, samenvatten en genereren tonen aan dat XBridge sterke baseline-methoden overtreft, vooral voor talen met weinig bronnen en voorheen onbekende talen, zonder de LLM opnieuw te trainen.

English

Large language models (LLMs) exhibit strong general intelligence, yet their multilingual performance remains highly imbalanced. Although LLMs encode substantial cross-lingual knowledge in a unified semantic space, they often struggle to reliably interface this knowledge with low-resource or unseen languages. Fortunately, pretrained encoder-decoder translation models already possess balanced multilingual capability, suggesting a natural complement to LLMs. In this work, we propose XBridge, a compositional encoder-LLM-decoder architecture that offloads multilingual understanding and generation to external pretrained translation models, while preserving the LLM as an English-centric core for general knowledge processing. To address the resulting representation misalignment across models, we introduce lightweight cross-model mapping layers and an optimal transport-based alignment objective, enabling fine-grained semantic consistency for multilingual generation. Experiments on four LLMs across multilingual understanding, reasoning, summarization, and generation indicate that XBridge outperforms strong baselines, especially on low-resource and previously unseen languages, without retraining the LLM.

Taal op Aanvraag, Kennis als Kern: Het Combineren van LLM's met Encoder-Decoder Vertaalmodellen voor Uitbreidbare Meertaligheid

Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Samenvatting

Support