Tower+: Brückenschlag zwischen Allgemeinheit und Übersetzungsspezialisierung in mehrsprachigen LLMs
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs
June 20, 2025
Autoren: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI
Zusammenfassung
Das Feinabstimmen vortrainierter LLMs hat sich als effektive Strategie erwiesen, um Spitzenleistungen bei spezifischen Aufgaben wie maschineller Übersetzung zu erreichen. Dieser Anpassungsprozess geht jedoch oft mit dem Verlust allgemeiner Fähigkeiten einher, wie etwa konversationellem Denken und Befolgen von Anweisungen, was die Nützlichkeit des Systems in realen Anwendungen, die eine Mischung verschiedener Fähigkeiten erfordern, beeinträchtigt. In diesem Artikel stellen wir Tower+ vor, eine Suite von Modellen, die sowohl starke Leistungen in der Übersetzung als auch in mehrsprachigen allgemeinen Textfähigkeiten liefern soll. Wir erreichen eine Pareto-Grenze zwischen Übersetzungsspezialisierung und mehrsprachigen allgemeinen Fähigkeiten durch ein neuartiges Trainingsrezept, das auf Tower (Alves et al., 2024) aufbaut und fortgesetztes Vortraining, überwachtes Feinabstimmen, Präferenzoptimierung sowie bestärkendes Lernen mit überprüfbaren Belohnungen umfasst. In jeder Trainingsphase generieren und kuratieren wir sorgfältig Daten, um die Leistung sowohl in der Übersetzung als auch in allgemeinen Aufgaben wie Code-Generierung, mathematischer Problemlösung und dem Befolgen von Anweisungen zu stärken. Wir entwickeln Modelle in verschiedenen Größen: 2B, 9B und 72B. Unsere kleineren Modelle übertreffen oft größere allgemeine Open-Weight- und proprietäre LLMs (z.B. Llama 3.3 70B, GPT-4o). Unser größtes Modell liefert Spitzenleistungen in der Übersetzung für hochressourcenreiche Sprachen und erzielt Top-Ergebnisse in mehrsprachigen Arena Hard-Evaluierungen sowie in IF-MT, einem Benchmark, den wir einführen, um sowohl Übersetzung als auch das Befolgen von Anweisungen zu bewerten. Unsere Ergebnisse zeigen, dass es möglich ist, Spitzenmodelle in allgemeinen Fähigkeiten zu konkurrieren, während gleichzeitig spezifische Geschäftsbereiche wie Übersetzung und Lokalisierung optimiert werden.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for
reaching state-of-the-art performance on specific tasks like machine
translation. However, this process of adaptation often implies sacrificing
general-purpose capabilities, such as conversational reasoning and
instruction-following, hampering the utility of the system in real-world
applications that require a mixture of skills. In this paper, we introduce
Tower+, a suite of models designed to deliver strong performance across both
translation and multilingual general-purpose text capabilities. We achieve a
Pareto frontier between translation specialization and multilingual
general-purpose capabilities by introducing a novel training recipe that builds
on Tower (Alves et al., 2024), comprising continued pretraining, supervised
fine-tuning, preference optimization, and reinforcement learning with
verifiable rewards. At each stage of training, we carefully generate and curate
data to strengthen performance on translation as well as general-purpose tasks
involving code generation, mathematics problem solving, and general
instruction-following. We develop models at multiple scales: 2B, 9B, and 72B.
Our smaller models often outperform larger general-purpose open-weight and
proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers
best-in-class translation performance for high-resource languages and top
results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we
introduce for evaluating both translation and instruction-following. Our
findings highlight that it is possible to rival frontier models in general
capabilities, while optimizing for specific business domains, such as
translation and localization.