LLaMAX2: Ihr übersetzungsoptimiertes Modell überzeugt auch in der Argumentation
LLaMAX2: Your Translation-Enhanced Model also Performs Well in Reasoning
October 10, 2025
papers.authors: Changjiang Gao, Zixian Huang, Jingyang Gong, Shujian Huang, Lei Li, Fei Yuan
cs.AI
papers.abstract
Allgemeine Large Language Models (LLMs) zeichnen sich durch ihre Fähigkeiten im Bereich des logischen Denkens aus, während Modelle, die für Übersetzungen optimiert wurden, in solchen Aufgaben Schwierigkeiten haben. Um dieses Problem zu lösen, schlagen wir ein neuartiges, translationsoptimiertes Verfahren vor, das mit Instruktionsmodellen beginnt und eine schichtselektive Feinabstimmung ausschließlich auf parallelen Daten anwendet. Im Rahmen dieses Prozesses führen wir die Qwen3-XPlus-Modelle ein, die signifikante Verbesserungen in der Übersetzungsleistung sowohl für ressourcenstarke als auch ressourcenschwache Sprachen demonstrieren und dabei in ressourcenschwachen Sprachen wie Swahili Werte von über 15 spBLEU und über 40 xComet erreichen. Interessanterweise erzielt Qwen3-XPlus, das nur mit kleinen parallelen Datensätzen trainiert wurde, eine durchschnittliche Verbesserung von mehr als 1 Punkt in 7 multilingualen Aufgaben, während es eine vergleichbare Kompetenz wie das Qwen3-Instruktionsmodell in 15 gängigen Reasoning-Datensätzen beibehält. Diese Arbeit bietet einen vielversprechenden Ansatz zur multilingualen Verbesserung, der die Komplexität erheblich reduziert und die Zugänglichkeit für eine breitere Palette von Sprachen erhöht. Der Code und das Modell sind öffentlich verfügbar.
English
General Large Language Models (LLMs) excel in reasoning, but those enhanced
for translation struggle with reasoning tasks. To address this, we propose a
novel translationenhanced recipe that begins with instruct models and applies
layer-selective tuning only on parallel data. Following this pipeline, we
introduce the Qwen3-XPlus models, which demonstrate significant improvements in
translation performance across both high- and lowresource languages, achieving
15+ spBLEU and 40+ xComet in low-resource languages, like Swahili.
Interestingly, training only with small parallel datasets, Qwen3-XPlus achieves
an average improvement of 1+ points on 7 multilingual tasks while maintaining
proficiency comparable to the Qwen3 instruct model in 15 popular reasoning
datasets. This work offers a promising approach to multilingual enhancement,
significantly reducing complexity and enhancing accessibility for a wider range
of languages. The code and model are publicly available.