Tower+: Colmare il Divario tra Generalità e Specializzazione nella Traduzione nei Modelli Linguistici Multilingue
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs
June 20, 2025
Autori: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI
Abstract
Il fine-tuning di LLM pre-addestrati si è dimostrato una strategia efficace per raggiungere prestazioni all'avanguardia in compiti specifici come la traduzione automatica. Tuttavia, questo processo di adattamento spesso implica il sacrificio di capacità generali, come il ragionamento conversazionale e il seguire istruzioni, limitando l'utilità del sistema in applicazioni reali che richiedono un mix di competenze. In questo articolo, introduciamo Tower+, una suite di modelli progettati per offrire prestazioni solide sia nella traduzione che nelle capacità multilingue di elaborazione del testo generico. Raggiungiamo una frontiera di Pareto tra specializzazione nella traduzione e capacità multilingue generiche introducendo una nuova ricetta di addestramento che si basa su Tower (Alves et al., 2024), comprendendo pre-addestramento continuo, fine-tuning supervisionato, ottimizzazione delle preferenze e apprendimento per rinforzo con ricompense verificabili. In ogni fase dell'addestramento, generiamo e curiamo attentamente i dati per rafforzare le prestazioni sia nella traduzione che in compiti generici come la generazione di codice, la risoluzione di problemi matematici e il seguire istruzioni generali. Sviluppiamo modelli su più scale: 2B, 9B e 72B. I nostri modelli più piccoli spesso superano LLM generali open-weight e proprietari di dimensioni maggiori (ad esempio, Llama 3.3 70B, GPT-4o). Il nostro modello più grande offre prestazioni di traduzione di livello superiore per lingue ad alta risorsa e risultati eccellenti nelle valutazioni multilingue Arena Hard e in IF-MT, un benchmark che introduciamo per valutare sia la traduzione che il seguire istruzioni. I nostri risultati evidenziano che è possibile rivaleggiare con i modelli di frontiera nelle capacità generali, ottimizzando al contempo per domini aziendali specifici, come la traduzione e la localizzazione.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for
reaching state-of-the-art performance on specific tasks like machine
translation. However, this process of adaptation often implies sacrificing
general-purpose capabilities, such as conversational reasoning and
instruction-following, hampering the utility of the system in real-world
applications that require a mixture of skills. In this paper, we introduce
Tower+, a suite of models designed to deliver strong performance across both
translation and multilingual general-purpose text capabilities. We achieve a
Pareto frontier between translation specialization and multilingual
general-purpose capabilities by introducing a novel training recipe that builds
on Tower (Alves et al., 2024), comprising continued pretraining, supervised
fine-tuning, preference optimization, and reinforcement learning with
verifiable rewards. At each stage of training, we carefully generate and curate
data to strengthen performance on translation as well as general-purpose tasks
involving code generation, mathematics problem solving, and general
instruction-following. We develop models at multiple scales: 2B, 9B, and 72B.
Our smaller models often outperform larger general-purpose open-weight and
proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers
best-in-class translation performance for high-resource languages and top
results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we
introduce for evaluating both translation and instruction-following. Our
findings highlight that it is possible to rival frontier models in general
capabilities, while optimizing for specific business domains, such as
translation and localization.