Mutarjim: Fortschritt in der bidirektionalen Arabisch-Englisch-Übersetzung mit einem kleinen SprachmodellMutarjim: Advancing Bidirectional Arabic-English Translation with a
Small Language Model
Wir stellen Mutarjim vor, ein kompaktes, aber leistungsstarkes Sprachmodell für die bidirektionale arabisch-englische Übersetzung. Während großskalige LLMs beeindruckende Fortschritte bei Aufgaben der natürlichen Sprachverarbeitung, einschließlich maschineller Übersetzung, gezeigt haben, haben auch kleinere Modelle Potenzial. Basierend auf dieser Erkenntnis entwickelten wir Mutarjim auf der Grundlage von Kuwain-1.5B, einem Sprachmodell, das speziell für Arabisch und Englisch optimiert ist. Trotz seiner bescheidenen Größe übertrifft Mutarjim viel größere Modelle in mehreren etablierten Benchmarks, was durch einen optimierten zweiphasigen Trainingsansatz und einen sorgfältig kuratierten, hochwertigen Trainingskorpus erreicht wird. Experimentelle Ergebnisse zeigen, dass Mutarjim mit Modellen konkurriert, die bis zu 20-mal größer sind, und dabei die Rechenkosten und Trainingsanforderungen erheblich reduziert. Wir stellen außerdem Tarjama-25 vor, einen neuen Benchmark, der die Einschränkungen bestehender arabisch-englischer Benchmarking-Datensätze wie Domänenengpässe, kurze Satzlängen und eine englisch-quellenbasierte Verzerrung überwinden soll. Tarjama-25 umfasst 5.000 von Experten überprüfte Satzpaare und deckt ein breites Spektrum von Domänen ab, wodurch ein umfassenderes und ausgewogeneres Bewertungsframework geboten wird. Bemerkenswerterweise erzielt Mutarjim auf der Aufgabe Englisch-zu-Arabisch in Tarjama-25 Spitzenleistungen und übertrifft sogar deutlich größere und proprietäre Modelle wie GPT-4o mini. Wir veröffentlichen Tarjama-25 öffentlich, um zukünftige Forschung zu unterstützen und die Bewertung arabisch-englischer Übersetzungssysteme voranzutreiben.