ChatPaper.aiChatPaper

Tower+: 다국어 LLM에서 일반성과 번역 전문화를 연결하다

Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs

June 20, 2025
저자: Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins
cs.AI

초록

사전 학습된 대형 언어 모델(LLM)을 미세 조정하는 것은 기계 번역과 같은 특정 작업에서 최첨단 성능을 달성하기 위한 효과적인 전략으로 입증되어 왔다. 그러나 이러한 적응 과정은 대화형 추론 및 지시 따르기와 같은 일반적인 목적의 능력을 희생해야 하는 경우가 많아, 다양한 기술이 요구되는 실제 애플리케이션에서 시스템의 유용성을 저해한다. 본 논문에서는 번역과 다국어 일반 텍스트 처리 능력 모두에서 강력한 성능을 제공하도록 설계된 Tower+ 모델 제품군을 소개한다. 우리는 Tower(Alves et al., 2024)를 기반으로 한 새로운 학습 레시피를 도입하여 번역 특화와 다국어 일반 목적 능력 간의 파레토 최적을 달성한다. 이 레시피는 지속적인 사전 학습, 지도 미세 조정, 선호도 최적화, 그리고 검증 가능한 보상을 활용한 강화 학습으로 구성된다. 각 학습 단계에서 우리는 번역뿐만 아니라 코드 생성, 수학 문제 해결, 일반 지시 따르기와 같은 일반 작업에서의 성능을 강화하기 위해 데이터를 신중하게 생성하고 정제한다. 우리는 2B, 9B, 72B 규모의 다양한 모델을 개발하였다. 우리의 소규모 모델은 종종 더 큰 일반 목적의 오픈 웨이트 및 독점 LLM(예: Llama 3.3 70B, GPT-4o)을 능가한다. 우리의 가장 큰 모델은 고자원 언어에서 최고 수준의 번역 성능을 제공하며, 다국어 Arena Hard 평가와 번역 및 지시 따르기를 모두 평가하기 위해 도입한 IF-MT 벤치마크에서도 최상위 결과를 달성한다. 우리의 연구 결과는 번역 및 현지화와 같은 특정 비즈니스 영역을 최적화하면서도 일반적인 능력에서 최첨단 모델과 경쟁할 수 있음을 강조한다.
English
Fine-tuning pretrained LLMs has been shown to be an effective strategy for reaching state-of-the-art performance on specific tasks like machine translation. However, this process of adaptation often implies sacrificing general-purpose capabilities, such as conversational reasoning and instruction-following, hampering the utility of the system in real-world applications that require a mixture of skills. In this paper, we introduce Tower+, a suite of models designed to deliver strong performance across both translation and multilingual general-purpose text capabilities. We achieve a Pareto frontier between translation specialization and multilingual general-purpose capabilities by introducing a novel training recipe that builds on Tower (Alves et al., 2024), comprising continued pretraining, supervised fine-tuning, preference optimization, and reinforcement learning with verifiable rewards. At each stage of training, we carefully generate and curate data to strengthen performance on translation as well as general-purpose tasks involving code generation, mathematics problem solving, and general instruction-following. We develop models at multiple scales: 2B, 9B, and 72B. Our smaller models often outperform larger general-purpose open-weight and proprietary LLMs (e.g., Llama 3.3 70B, GPT-4o). Our largest model delivers best-in-class translation performance for high-resource languages and top results in multilingual Arena Hard evaluations and in IF-MT, a benchmark we introduce for evaluating both translation and instruction-following. Our findings highlight that it is possible to rival frontier models in general capabilities, while optimizing for specific business domains, such as translation and localization.
PDF21July 1, 2025