Tower+ : Combiner généralité et spécialisation en traduction pour les modèles de langage multilingues
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs
June 20, 2025
Auteurs: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI
Résumé
Le fine-tuning de grands modèles de langage (LLM) pré-entraînés s'est révélé être une stratégie efficace pour atteindre des performances de pointe sur des tâches spécifiques comme la traduction automatique. Cependant, ce processus d'adaptation implique souvent de sacrifier des capacités polyvalentes, telles que le raisonnement conversationnel et le suivi d'instructions, ce qui limite l'utilité du système dans des applications réelles nécessitant un mélange de compétences. Dans cet article, nous présentons Tower+, une suite de modèles conçus pour offrir de solides performances à la fois en traduction et en capacités polyvalentes multilingues. Nous atteignons une frontière de Pareto entre la spécialisation en traduction et les capacités polyvalentes multilingues en introduisant une nouvelle méthode d'entraînement basée sur Tower (Alves et al., 2024), comprenant un pré-entraînement continu, un fine-tuning supervisé, une optimisation des préférences et un apprentissage par renforcement avec des récompenses vérifiables. À chaque étape de l'entraînement, nous générons et sélectionnons soigneusement des données pour renforcer les performances en traduction ainsi que sur des tâches polyvalentes impliquant la génération de code, la résolution de problèmes mathématiques et le suivi d'instructions générales. Nous développons des modèles à plusieurs échelles : 2B, 9B et 72B. Nos modèles plus petits surpassent souvent des LLM polyvalents open-weight et propriétaires de plus grande taille (par exemple, Llama 3.3 70B, GPT-4o). Notre plus grand modèle offre des performances de traduction de premier ordre pour les langues à ressources élevées et des résultats exceptionnels dans les évaluations multilingues Arena Hard ainsi que dans IF-MT, un benchmark que nous introduisons pour évaluer à la fois la traduction et le suivi d'instructions. Nos résultats mettent en évidence qu'il est possible de rivaliser avec les modèles de pointe en capacités générales tout en optimisant pour des domaines métier spécifiques, tels que la traduction et la localisation.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for
reaching state-of-the-art performance on specific tasks like machine
translation. However, this process of adaptation often implies sacrificing
general-purpose capabilities, such as conversational reasoning and
instruction-following, hampering the utility of the system in real-world
applications that require a mixture of skills. In this paper, we introduce
Tower+, a suite of models designed to deliver strong performance across both
translation and multilingual general-purpose text capabilities. We achieve a
Pareto frontier between translation specialization and multilingual
general-purpose capabilities by introducing a novel training recipe that builds
on Tower (Alves et al., 2024), comprising continued pretraining, supervised
fine-tuning, preference optimization, and reinforcement learning with
verifiable rewards. At each stage of training, we carefully generate and curate
data to strengthen performance on translation as well as general-purpose tasks
involving code generation, mathematics problem solving, and general
instruction-following. We develop models at multiple scales: 2B, 9B, and 72B.
Our smaller models often outperform larger general-purpose open-weight and
proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers
best-in-class translation performance for high-resource languages and top
results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we
introduce for evaluating both translation and instruction-following. Our
findings highlight that it is possible to rival frontier models in general
capabilities, while optimizing for specific business domains, such as
translation and localization.