ChatPaper.aiChatPaper

Tower+: Conectando Generalidade e Especialização em Tradução em LLMs Multilíngues

Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs

June 20, 2025
Autores: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI

Resumo

O ajuste fino de LLMs pré-treinados tem se mostrado uma estratégia eficaz para alcançar desempenho de ponta em tarefas específicas, como tradução automática. No entanto, esse processo de adaptação frequentemente implica em sacrificar capacidades de propósito geral, como raciocínio conversacional e seguimento de instruções, prejudicando a utilidade do sistema em aplicações do mundo real que exigem uma mistura de habilidades. Neste artigo, apresentamos o Tower+, um conjunto de modelos projetados para oferecer um desempenho robusto tanto em tradução quanto em capacidades multilingues de propósito geral. Alcançamos uma fronteira de Pareto entre especialização em tradução e capacidades multilingues de propósito geral ao introduzir uma nova receita de treinamento que se baseia no Tower (Alves et al., 2024), compreendendo pré-treinamento contínuo, ajuste fino supervisionado, otimização de preferências e aprendizado por reforço com recompensas verificáveis. Em cada etapa do treinamento, geramos e curamos cuidadosamente dados para fortalecer o desempenho em tradução, bem como em tarefas de propósito geral envolvendo geração de código, resolução de problemas matemáticos e seguimento de instruções gerais. Desenvolvemos modelos em múltiplas escalas: 2B, 9B e 72B. Nossos modelos menores frequentemente superam LLMs de propósito geral maiores, tanto de código aberto quanto proprietários (por exemplo, Llama 3.3 70B, GPT-4o). Nosso maior modelo oferece o melhor desempenho em tradução para idiomas de alta disponibilidade de recursos e resultados de topo em avaliações multilingues Arena Hard e no IF-MT, um benchmark que introduzimos para avaliar tanto tradução quanto seguimento de instruções. Nossas descobertas destacam que é possível rivalizar com modelos de fronteira em capacidades gerais, enquanto se otimiza para domínios de negócios específicos, como tradução e localização.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for reaching state-of-the-art performance on specific tasks like machine translation. However, this process of adaptation often implies sacrificing general-purpose capabilities, such as conversational reasoning and instruction-following, hampering the utility of the system in real-world applications that require a mixture of skills. In this paper, we introduce Tower+, a suite of models designed to deliver strong performance across both translation and multilingual general-purpose text capabilities. We achieve a Pareto frontier between translation specialization and multilingual general-purpose capabilities by introducing a novel training recipe that builds on Tower (Alves et al., 2024), comprising continued pretraining, supervised fine-tuning, preference optimization, and reinforcement learning with verifiable rewards. At each stage of training, we carefully generate and curate data to strengthen performance on translation as well as general-purpose tasks involving code generation, mathematics problem solving, and general instruction-following. We develop models at multiple scales: 2B, 9B, and 72B. Our smaller models often outperform larger general-purpose open-weight and proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers best-in-class translation performance for high-resource languages and top results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we introduce for evaluating both translation and instruction-following. Our findings highlight that it is possible to rival frontier models in general capabilities, while optimizing for specific business domains, such as translation and localization.
PDF32July 1, 2025