ChatPaper.aiChatPaper

Tower+ : Combiner généralité et spécialisation en traduction pour les modèles de langage multilingues

Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs

June 20, 2025
Auteurs: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI

Résumé

Le fine-tuning de grands modèles de langage (LLM) pré-entraînés s'est révélé être une stratégie efficace pour atteindre des performances de pointe sur des tâches spécifiques comme la traduction automatique. Cependant, ce processus d'adaptation implique souvent de sacrifier des capacités polyvalentes, telles que le raisonnement conversationnel et le suivi d'instructions, ce qui limite l'utilité du système dans des applications réelles nécessitant un mélange de compétences. Dans cet article, nous présentons Tower+, une suite de modèles conçus pour offrir de solides performances à la fois en traduction et en capacités polyvalentes multilingues. Nous atteignons une frontière de Pareto entre la spécialisation en traduction et les capacités polyvalentes multilingues en introduisant une nouvelle méthode d'entraînement basée sur Tower (Alves et al., 2024), comprenant un pré-entraînement continu, un fine-tuning supervisé, une optimisation des préférences et un apprentissage par renforcement avec des récompenses vérifiables. À chaque étape de l'entraînement, nous générons et sélectionnons soigneusement des données pour renforcer les performances en traduction ainsi que sur des tâches polyvalentes impliquant la génération de code, la résolution de problèmes mathématiques et le suivi d'instructions générales. Nous développons des modèles à plusieurs échelles : 2B, 9B et 72B. Nos modèles plus petits surpassent souvent des LLM polyvalents open-weight et propriétaires de plus grande taille (par exemple, Llama 3.3 70B, GPT-4o). Notre plus grand modèle offre des performances de traduction de premier ordre pour les langues à ressources élevées et des résultats exceptionnels dans les évaluations multilingues Arena Hard ainsi que dans IF-MT, un benchmark que nous introduisons pour évaluer à la fois la traduction et le suivi d'instructions. Nos résultats mettent en évidence qu'il est possible de rivaliser avec les modèles de pointe en capacités générales tout en optimisant pour des domaines métier spécifiques, tels que la traduction et la localisation.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for reaching state-of-the-art performance on specific tasks like machine translation. However, this process of adaptation often implies sacrificing general-purpose capabilities, such as conversational reasoning and instruction-following, hampering the utility of the system in real-world applications that require a mixture of skills. In this paper, we introduce Tower+, a suite of models designed to deliver strong performance across both translation and multilingual general-purpose text capabilities. We achieve a Pareto frontier between translation specialization and multilingual general-purpose capabilities by introducing a novel training recipe that builds on Tower (Alves et al., 2024), comprising continued pretraining, supervised fine-tuning, preference optimization, and reinforcement learning with verifiable rewards. At each stage of training, we carefully generate and curate data to strengthen performance on translation as well as general-purpose tasks involving code generation, mathematics problem solving, and general instruction-following. We develop models at multiple scales: 2B, 9B, and 72B. Our smaller models often outperform larger general-purpose open-weight and proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers best-in-class translation performance for high-resource languages and top results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we introduce for evaluating both translation and instruction-following. Our findings highlight that it is possible to rival frontier models in general capabilities, while optimizing for specific business domains, such as translation and localization.
PDF21July 1, 2025