Tower+: Conectando la Generalidad y la Especialización en Traducción en Modelos de Lenguaje Multilingües
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs
June 20, 2025
Autores: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI
Resumen
El ajuste fino de modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) ha demostrado ser una estrategia efectiva para alcanzar un rendimiento de vanguardia en tareas específicas, como la traducción automática. Sin embargo, este proceso de adaptación a menudo implica sacrificar capacidades de propósito general, como el razonamiento conversacional y la capacidad de seguir instrucciones, lo que limita la utilidad del sistema en aplicaciones del mundo real que requieren una combinación de habilidades. En este artículo, presentamos Tower+, un conjunto de modelos diseñados para ofrecer un rendimiento sólido tanto en traducción como en capacidades multilingües de propósito general. Logramos una frontera de Pareto entre la especialización en traducción y las capacidades multilingües de propósito general mediante la introducción de una novedosa receta de entrenamiento que se basa en Tower (Alves et al., 2024), que incluye preentrenamiento continuo, ajuste fino supervisado, optimización de preferencias y aprendizaje por refuerzo con recompensas verificables. En cada etapa del entrenamiento, generamos y seleccionamos cuidadosamente datos para fortalecer el rendimiento en traducción, así como en tareas de propósito general que involucran generación de código, resolución de problemas matemáticos y seguimiento de instrucciones generales. Desarrollamos modelos a múltiples escalas: 2B, 9B y 72B. Nuestros modelos más pequeños a menudo superan a LLMs de propósito general más grandes, tanto de código abierto como propietarios (por ejemplo, Llama 3.3 70B, GPT-4o). Nuestro modelo más grande ofrece un rendimiento de traducción de clase superior para lenguajes de alto recurso y resultados destacados en evaluaciones multilingües de Arena Hard y en IF-MT, un punto de referencia que introducimos para evaluar tanto la traducción como la capacidad de seguir instrucciones. Nuestros hallazgos destacan que es posible rivalizar con los modelos de vanguardia en capacidades generales, mientras se optimiza para dominios empresariales específicos, como la traducción y la localización.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for
reaching state-of-the-art performance on specific tasks like machine
translation. However, this process of adaptation often implies sacrificing
general-purpose capabilities, such as conversational reasoning and
instruction-following, hampering the utility of the system in real-world
applications that require a mixture of skills. In this paper, we introduce
Tower+, a suite of models designed to deliver strong performance across both
translation and multilingual general-purpose text capabilities. We achieve a
Pareto frontier between translation specialization and multilingual
general-purpose capabilities by introducing a novel training recipe that builds
on Tower (Alves et al., 2024), comprising continued pretraining, supervised
fine-tuning, preference optimization, and reinforcement learning with
verifiable rewards. At each stage of training, we carefully generate and curate
data to strengthen performance on translation as well as general-purpose tasks
involving code generation, mathematics problem solving, and general
instruction-following. We develop models at multiple scales: 2B, 9B, and 72B.
Our smaller models often outperform larger general-purpose open-weight and
proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers
best-in-class translation performance for high-resource languages and top
results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we
introduce for evaluating both translation and instruction-following. Our
findings highlight that it is possible to rival frontier models in general
capabilities, while optimizing for specific business domains, such as
translation and localization.