Linguagem Sob Demanda, Conhecimento no Núcleo: Composição de LLMs com Modelos de Tradução Encoder-Decoder para Multilinguismo Extensível
Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality
March 18, 2026
Autores: Mengyu Bu, Yang Feng
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) exibem inteligência geral robusta, mas seu desempenho multilíngue permanece altamente desequilibrado. Embora os LLMs codifiquem conhecimento cruzado substancial em um espaço semântico unificado, frequentemente lutam para conectar esse conhecimento de forma confiável com idiomas de baixos recursos ou não vistos. Felizmente, modelos de tradução pré-treinados do tipo codificador-decodificador já possuem capacidade multilíngue equilibrada, sugerindo um complemento natural aos LLMs. Neste trabalho, propomos o XBridge, uma arquitetura composicional codificador-LLM-decodificador que delega a compreensão e geração multilíngue a modelos de tradução externos pré-treinados, preservando o LLM como núcleo centrado no inglês para processamento de conhecimento geral. Para resolver o desalinhamento representacional resultante entre os modelos, introduzimos camadas de mapeamento cruzado leves e um objetivo de alinhamento baseado em transporte ótimo, permitindo consistência semântica refinada para geração multilíngue. Experimentos com quatro LLMs em compreensão, raciocínio, sumarização e geração multilíngue indicam que o XBridge supera baselines fortes, especialmente em idiomas de baixos recursos e previamente não vistos, sem retreinar o LLM.
English
Large language models (LLMs) exhibit strong general intelligence, yet their multilingual performance remains highly imbalanced. Although LLMs encode substantial cross-lingual knowledge in a unified semantic space, they often struggle to reliably interface this knowledge with low-resource or unseen languages. Fortunately, pretrained encoder-decoder translation models already possess balanced multilingual capability, suggesting a natural complement to LLMs. In this work, we propose XBridge, a compositional encoder-LLM-decoder architecture that offloads multilingual understanding and generation to external pretrained translation models, while preserving the LLM as an English-centric core for general knowledge processing. To address the resulting representation misalignment across models, we introduce lightweight cross-model mapping layers and an optimal transport-based alignment objective, enabling fine-grained semantic consistency for multilingual generation. Experiments on four LLMs across multilingual understanding, reasoning, summarization, and generation indicate that XBridge outperforms strong baselines, especially on low-resource and previously unseen languages, without retraining the LLM.