Tower+: Соединение универсальности и специализации на перевод в многоязычных больших языковых моделях
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs
June 20, 2025
Авторы: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI
Аннотация
Тонкая настройка предварительно обученных больших языковых моделей (LLM) доказала свою эффективность для достижения передовых результатов в конкретных задачах, таких как машинный перевод. Однако процесс адаптации часто подразумевает утрату универсальных возможностей, таких как способность к диалоговому рассуждению и выполнению инструкций, что ограничивает полезность системы в реальных приложениях, требующих сочетания различных навыков. В данной работе мы представляем Tower+ — набор моделей, разработанных для обеспечения высокой производительности как в переводе, так и в многоязычных универсальных текстовых задачах. Мы достигаем Парето-оптимума между специализацией на переводе и универсальными многоязычными возможностями, используя новый подход к обучению, основанный на модели Tower (Alves et al., 2024), который включает продолженное предварительное обучение, контролируемую тонкую настройку, оптимизацию предпочтений и обучение с подкреплением с верифицируемыми наградами. На каждом этапе обучения мы тщательно генерируем и отбираем данные для улучшения производительности как в переводе, так и в универсальных задачах, таких как генерация кода, решение математических задач и выполнение общих инструкций. Мы разработали модели различных масштабов: 2B, 9B и 72B. Наши меньшие модели часто превосходят более крупные универсальные LLM с открытыми весами и проприетарные модели (например, Llama 3.3 70B, GPT-4o). Наша крупнейшая модель демонстрирует наилучшие результаты в переводе для языков с большим объемом ресурсов, а также лидирует в многоязычных оценках Arena Hard и в IF-MT — бенчмарке, который мы вводим для оценки как перевода, так и выполнения инструкций. Наши результаты подчеркивают, что можно конкурировать с передовыми моделями в универсальных возможностях, одновременно оптимизируя их для конкретных бизнес-областей, таких как перевод и локализация.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for
reaching state-of-the-art performance on specific tasks like machine
translation. However, this process of adaptation often implies sacrificing
general-purpose capabilities, such as conversational reasoning and
instruction-following, hampering the utility of the system in real-world
applications that require a mixture of skills. In this paper, we introduce
Tower+, a suite of models designed to deliver strong performance across both
translation and multilingual general-purpose text capabilities. We achieve a
Pareto frontier between translation specialization and multilingual
general-purpose capabilities by introducing a novel training recipe that builds
on Tower (Alves et al., 2024), comprising continued pretraining, supervised
fine-tuning, preference optimization, and reinforcement learning with
verifiable rewards. At each stage of training, we carefully generate and curate
data to strengthen performance on translation as well as general-purpose tasks
involving code generation, mathematics problem solving, and general
instruction-following. We develop models at multiple scales: 2B, 9B, and 72B.
Our smaller models often outperform larger general-purpose open-weight and
proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers
best-in-class translation performance for high-resource languages and top
results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we
introduce for evaluating both translation and instruction-following. Our
findings highlight that it is possible to rival frontier models in general
capabilities, while optimizing for specific business domains, such as
translation and localization.