Tower+: Het overbruggen van algemeenheid en vertaalspecialisatie in meertalige LLM's

Samenvatting

Het finetunen van vooraf getrainde grote taalmodellen (LLMs) is een effectieve strategie gebleken om state-of-the-art prestaties te bereiken voor specifieke taken zoals machinaal vertalen. Dit aanpassingsproces gaat echter vaak ten koste van algemene vaardigheden, zoals conversatieel redeneren en het volgen van instructies, wat de bruikbaarheid van het systeem in real-world toepassingen die een mix van vaardigheden vereisen, belemmert. In dit artikel introduceren we Tower+, een reeks modellen die zijn ontworpen om sterke prestaties te leveren op zowel vertalingen als meertalige algemene tekstvaardigheden. We bereiken een Pareto-frontier tussen vertaalspecialisatie en meertalige algemene vaardigheden door een nieuw trainingsrecept te introduceren dat voortbouwt op Tower (Alves et al., 2024), bestaande uit voortgezet vooraf trainen, supervised finetunen, voorkeursoptimalisatie en reinforcement learning met verifieerbare beloningen. In elke fase van de training genereren en cureren we zorgvuldig data om de prestaties te versterken op zowel vertalingen als algemene taken zoals codegeneratie, wiskundeproblemen oplossen en het volgen van instructies. We ontwikkelen modellen op meerdere schalen: 2B, 9B en 72B. Onze kleinere modellen overtreffen vaak grotere algemene open-weight en propriëtaire LLMs (bijv. Llama 3.3 70B, GPT-4o). Ons grootste model levert topprestaties in vertalingen voor hoog-resource talen en behaalt topresultaten in meertalige Arena Hard-evaluaties en in IF-MT, een benchmark die we introduceren om zowel vertalingen als het volgen van instructies te evalueren. Onze bevindingen benadrukken dat het mogelijk is om frontier-modellen te evenaren in algemene vaardigheden, terwijl we optimaliseren voor specifieke bedrijfsdomeinen, zoals vertaling en lokalisatie.

English

Fine-tuning pretrained LLMs has been shown to be an effective strategy for reaching state-of-the-art performance on specific tasks like machine translation. However, this process of adaptation often implies sacrificing general-purpose capabilities, such as conversational reasoning and instruction-following, hampering the utility of the system in real-world applications that require a mixture of skills. In this paper, we introduce Tower+, a suite of models designed to deliver strong performance across both translation and multilingual general-purpose text capabilities. We achieve a Pareto frontier between translation specialization and multilingual general-purpose capabilities by introducing a novel training recipe that builds on Tower (Alves et al., 2024), comprising continued pretraining, supervised fine-tuning, preference optimization, and reinforcement learning with verifiable rewards. At each stage of training, we carefully generate and curate data to strengthen performance on translation as well as general-purpose tasks involving code generation, mathematics problem solving, and general instruction-following. We develop models at multiple scales: 2B, 9B, and 72B. Our smaller models often outperform larger general-purpose open-weight and proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers best-in-class translation performance for high-resource languages and top results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we introduce for evaluating both translation and instruction-following. Our findings highlight that it is possible to rival frontier models in general capabilities, while optimizing for specific business domains, such as translation and localization.

Tower+: Het overbruggen van algemeenheid en vertaalspecialisatie in meertalige LLM's

Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs

Samenvatting

Support