Mutarjim:小規模言語モデルによるアラビア語-英語双方向翻訳の進展Mutarjim: Advancing Bidirectional Arabic-English Translation with a
Small Language Model
我々は、アラビア語と英語の双方向翻訳に特化したコンパクトでありながら強力な言語モデル「Mutarjim」を紹介する。大規模なLLM(大規模言語モデル)は、機械翻訳を含む自然言語処理タスクにおいて目覚ましい進歩を遂げてきたが、より小規模なモデルにも注目が集まっている。この洞察を活かし、我々はアラビア語と英語の両方に特化した言語モデル「Kuwain-1.5B」を基にMutarjimを開発した。Mutarjimはその控えめなサイズにもかかわらず、最適化された二段階のトレーニングアプローチと厳選された高品質なトレーニングコーパスを通じて、いくつかの確立されたベンチマークでより大規模なモデルを凌駕する性能を発揮する。実験結果は、Mutarjimが最大20倍大きいモデルと同等の性能を発揮しながら、計算コストとトレーニング要件を大幅に削減することを示している。 また、我々は既存のアラビア語-英語ベンチマークデータセットの課題(ドメインの狭さ、短い文の長さ、英語ソースの偏りなど)を克服するために設計された新しいベンチマーク「Tarjama-25」を導入する。Tarjama-25は、専門家によるレビューを受けた5,000の文ペアで構成され、幅広いドメインをカバーし、より包括的でバランスの取れた評価フレームワークを提供する。特に、MutarjimはTarjama-25の英語からアラビア語のタスクにおいて最先端の性能を達成し、GPT-4o miniのような大幅に大規模でプロプライエタリなモデルさえも上回る。我々は、今後の研究を支援し、アラビア語-英語翻訳システムの評価を進めるために、Tarjama-25を公開する。