Tower+: Conectando Generalidade e Especialização em Tradução em LLMs Multilíngues
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs
June 20, 2025
Autores: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI
Resumo
O ajuste fino de LLMs pré-treinados tem se mostrado uma estratégia eficaz para alcançar desempenho de ponta em tarefas específicas, como tradução automática. No entanto, esse processo de adaptação frequentemente implica em sacrificar capacidades de propósito geral, como raciocínio conversacional e seguimento de instruções, prejudicando a utilidade do sistema em aplicações do mundo real que exigem uma mistura de habilidades. Neste artigo, apresentamos o Tower+, um conjunto de modelos projetados para oferecer um desempenho robusto tanto em tradução quanto em capacidades multilingues de propósito geral. Alcançamos uma fronteira de Pareto entre especialização em tradução e capacidades multilingues de propósito geral ao introduzir uma nova receita de treinamento que se baseia no Tower (Alves et al., 2024), compreendendo pré-treinamento contínuo, ajuste fino supervisionado, otimização de preferências e aprendizado por reforço com recompensas verificáveis. Em cada etapa do treinamento, geramos e curamos cuidadosamente dados para fortalecer o desempenho em tradução, bem como em tarefas de propósito geral envolvendo geração de código, resolução de problemas matemáticos e seguimento de instruções gerais. Desenvolvemos modelos em múltiplas escalas: 2B, 9B e 72B. Nossos modelos menores frequentemente superam LLMs de propósito geral maiores, tanto de código aberto quanto proprietários (por exemplo, Llama 3.3 70B, GPT-4o). Nosso maior modelo oferece o melhor desempenho em tradução para idiomas de alta disponibilidade de recursos e resultados de topo em avaliações multilingues Arena Hard e no IF-MT, um benchmark que introduzimos para avaliar tanto tradução quanto seguimento de instruções. Nossas descobertas destacam que é possível rivalizar com modelos de fronteira em capacidades gerais, enquanto se otimiza para domínios de negócios específicos, como tradução e localização.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for
reaching state-of-the-art performance on specific tasks like machine
translation. However, this process of adaptation often implies sacrificing
general-purpose capabilities, such as conversational reasoning and
instruction-following, hampering the utility of the system in real-world
applications that require a mixture of skills. In this paper, we introduce
Tower+, a suite of models designed to deliver strong performance across both
translation and multilingual general-purpose text capabilities. We achieve a
Pareto frontier between translation specialization and multilingual
general-purpose capabilities by introducing a novel training recipe that builds
on Tower (Alves et al., 2024), comprising continued pretraining, supervised
fine-tuning, preference optimization, and reinforcement learning with
verifiable rewards. At each stage of training, we carefully generate and curate
data to strengthen performance on translation as well as general-purpose tasks
involving code generation, mathematics problem solving, and general
instruction-following. We develop models at multiple scales: 2B, 9B, and 72B.
Our smaller models often outperform larger general-purpose open-weight and
proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers
best-in-class translation performance for high-resource languages and top
results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we
introduce for evaluating both translation and instruction-following. Our
findings highlight that it is possible to rival frontier models in general
capabilities, while optimizing for specific business domains, such as
translation and localization.