Tower+: Het overbruggen van algemeenheid en vertaalspecialisatie in meertalige LLM's
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs
June 20, 2025
Auteurs: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI
Samenvatting
Het finetunen van vooraf getrainde grote taalmodellen (LLMs) is een effectieve strategie gebleken om state-of-the-art prestaties te bereiken voor specifieke taken zoals machinaal vertalen. Dit aanpassingsproces gaat echter vaak ten koste van algemene vaardigheden, zoals conversatieel redeneren en het volgen van instructies, wat de bruikbaarheid van het systeem in real-world toepassingen die een mix van vaardigheden vereisen, belemmert. In dit artikel introduceren we Tower+, een reeks modellen die zijn ontworpen om sterke prestaties te leveren op zowel vertalingen als meertalige algemene tekstvaardigheden. We bereiken een Pareto-frontier tussen vertaalspecialisatie en meertalige algemene vaardigheden door een nieuw trainingsrecept te introduceren dat voortbouwt op Tower (Alves et al., 2024), bestaande uit voortgezet vooraf trainen, supervised finetunen, voorkeursoptimalisatie en reinforcement learning met verifieerbare beloningen. In elke fase van de training genereren en cureren we zorgvuldig data om de prestaties te versterken op zowel vertalingen als algemene taken zoals codegeneratie, wiskundeproblemen oplossen en het volgen van instructies. We ontwikkelen modellen op meerdere schalen: 2B, 9B en 72B. Onze kleinere modellen overtreffen vaak grotere algemene open-weight en propriëtaire LLMs (bijv. Llama 3.3 70B, GPT-4o). Ons grootste model levert topprestaties in vertalingen voor hoog-resource talen en behaalt topresultaten in meertalige Arena Hard-evaluaties en in IF-MT, een benchmark die we introduceren om zowel vertalingen als het volgen van instructies te evalueren. Onze bevindingen benadrukken dat het mogelijk is om frontier-modellen te evenaren in algemene vaardigheden, terwijl we optimaliseren voor specifieke bedrijfsdomeinen, zoals vertaling en lokalisatie.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for
reaching state-of-the-art performance on specific tasks like machine
translation. However, this process of adaptation often implies sacrificing
general-purpose capabilities, such as conversational reasoning and
instruction-following, hampering the utility of the system in real-world
applications that require a mixture of skills. In this paper, we introduce
Tower+, a suite of models designed to deliver strong performance across both
translation and multilingual general-purpose text capabilities. We achieve a
Pareto frontier between translation specialization and multilingual
general-purpose capabilities by introducing a novel training recipe that builds
on Tower (Alves et al., 2024), comprising continued pretraining, supervised
fine-tuning, preference optimization, and reinforcement learning with
verifiable rewards. At each stage of training, we carefully generate and curate
data to strengthen performance on translation as well as general-purpose tasks
involving code generation, mathematics problem solving, and general
instruction-following. We develop models at multiple scales: 2B, 9B, and 72B.
Our smaller models often outperform larger general-purpose open-weight and
proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers
best-in-class translation performance for high-resource languages and top
results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we
introduce for evaluating both translation and instruction-following. Our
findings highlight that it is possible to rival frontier models in general
capabilities, while optimizing for specific business domains, such as
translation and localization.