Tower+: Colmare il Divario tra Generalità e Specializzazione nella Traduzione nei Modelli Linguistici Multilingue

Abstract

Il fine-tuning di LLM pre-addestrati si è dimostrato una strategia efficace per raggiungere prestazioni all'avanguardia in compiti specifici come la traduzione automatica. Tuttavia, questo processo di adattamento spesso implica il sacrificio di capacità generali, come il ragionamento conversazionale e il seguire istruzioni, limitando l'utilità del sistema in applicazioni reali che richiedono un mix di competenze. In questo articolo, introduciamo Tower+, una suite di modelli progettati per offrire prestazioni solide sia nella traduzione che nelle capacità multilingue di elaborazione del testo generico. Raggiungiamo una frontiera di Pareto tra specializzazione nella traduzione e capacità multilingue generiche introducendo una nuova ricetta di addestramento che si basa su Tower (Alves et al., 2024), comprendendo pre-addestramento continuo, fine-tuning supervisionato, ottimizzazione delle preferenze e apprendimento per rinforzo con ricompense verificabili. In ogni fase dell'addestramento, generiamo e curiamo attentamente i dati per rafforzare le prestazioni sia nella traduzione che in compiti generici come la generazione di codice, la risoluzione di problemi matematici e il seguire istruzioni generali. Sviluppiamo modelli su più scale: 2B, 9B e 72B. I nostri modelli più piccoli spesso superano LLM generali open-weight e proprietari di dimensioni maggiori (ad esempio, Llama 3.3 70B, GPT-4o). Il nostro modello più grande offre prestazioni di traduzione di livello superiore per lingue ad alta risorsa e risultati eccellenti nelle valutazioni multilingue Arena Hard e in IF-MT, un benchmark che introduciamo per valutare sia la traduzione che il seguire istruzioni. I nostri risultati evidenziano che è possibile rivaleggiare con i modelli di frontiera nelle capacità generali, ottimizzando al contempo per domini aziendali specifici, come la traduzione e la localizzazione.

English

Fine-tuning pretrained LLMs has been shown to be an effective strategy for reaching state-of-the-art performance on specific tasks like machine translation. However, this process of adaptation often implies sacrificing general-purpose capabilities, such as conversational reasoning and instruction-following, hampering the utility of the system in real-world applications that require a mixture of skills. In this paper, we introduce Tower+, a suite of models designed to deliver strong performance across both translation and multilingual general-purpose text capabilities. We achieve a Pareto frontier between translation specialization and multilingual general-purpose capabilities by introducing a novel training recipe that builds on Tower (Alves et al., 2024), comprising continued pretraining, supervised fine-tuning, preference optimization, and reinforcement learning with verifiable rewards. At each stage of training, we carefully generate and curate data to strengthen performance on translation as well as general-purpose tasks involving code generation, mathematics problem solving, and general instruction-following. We develop models at multiple scales: 2B, 9B, and 72B. Our smaller models often outperform larger general-purpose open-weight and proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers best-in-class translation performance for high-resource languages and top results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we introduce for evaluating both translation and instruction-following. Our findings highlight that it is possible to rival frontier models in general capabilities, while optimizing for specific business domains, such as translation and localization.

Tower+: Colmare il Divario tra Generalità e Specializzazione nella Traduzione nei Modelli Linguistici Multilingue

Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs

Abstract

Support