Язык по требованию, знание в основе: объединение больших языковых моделей с трансляционными моделями кодировщик-декодер для расширяемой многоязычности

Аннотация

Крупные языковые модели (LLM) демонстрируют мощный общий интеллект, однако их многоязычная производительность остается крайне несбалансированной. Хотя LLM кодируют обширные кросс-лингвистические знания в едином семантическом пространстве, они часто не могут надежно сопрягать эти знания с малоресурсными или ранее невстречавшимися языками. К счастью, предобученные энкодер-декодерные модели перевода уже обладают сбалансированной многоязычной способностью, что предполагает их естественное дополнение к LLM. В данной работе мы предлагаем XBridge — композиционную архитектуру энкодер-LLM-декодер, которая перекладывает задачи многоязычного понимания и генерации на внешние предобученные модели перевода, сохраняя за LLM роль англоцентричного ядра для обработки общих знаний. Для решения возникающей проблемы несоответствия репрезентаций между моделями мы вводим легковесные кросс-модельные слои сопоставления и цель выравнивания на основе оптимального транспорта, обеспечивая тонкую семантическую согласованность для многоязычной генерации. Эксперименты с четырьмя LLM в задачах многоязычного понимания, рассуждения, суммаризации и генерации показывают, что XBridge превосходит сильные базовые методы, особенно на малоресурсных и ранее невстречавшихся языках, без переобучения LLM.

English

Large language models (LLMs) exhibit strong general intelligence, yet their multilingual performance remains highly imbalanced. Although LLMs encode substantial cross-lingual knowledge in a unified semantic space, they often struggle to reliably interface this knowledge with low-resource or unseen languages. Fortunately, pretrained encoder-decoder translation models already possess balanced multilingual capability, suggesting a natural complement to LLMs. In this work, we propose XBridge, a compositional encoder-LLM-decoder architecture that offloads multilingual understanding and generation to external pretrained translation models, while preserving the LLM as an English-centric core for general knowledge processing. To address the resulting representation misalignment across models, we introduce lightweight cross-model mapping layers and an optimal transport-based alignment objective, enabling fine-grained semantic consistency for multilingual generation. Experiments on four LLMs across multilingual understanding, reasoning, summarization, and generation indicate that XBridge outperforms strong baselines, especially on low-resource and previously unseen languages, without retraining the LLM.

Язык по требованию, знание в основе: объединение больших языковых моделей с трансляционными моделями кодировщик-декодер для расширяемой многоязычности

Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Аннотация

Support