ChatPaper.aiChatPaper

Mutarjim: Развитие двунаправленного арабско-английского перевода с использованием компактной языковой модели

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

May 23, 2025
Авторы: Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan
cs.AI

Аннотация

Мы представляем Mutarjim — компактную, но мощную языковую модель для двустороннего перевода между арабским и английским языками. Хотя крупномасштабные языковые модели (LLM) продемонстрировали впечатляющие успехи в задачах обработки естественного языка, включая машинный перевод, меньшие модели также могут быть эффективны. Используя это понимание, мы разработали Mutarjim на основе Kuwain-1.5B — языковой модели, адаптированной для работы как с арабским, так и с английским языками. Несмотря на скромный размер, Mutarjim превосходит значительно более крупные модели на нескольких авторитетных бенчмарках благодаря оптимизированному двухэтапному подходу к обучению и тщательно отобранному высококачественному обучающему корпусу. Экспериментальные результаты показывают, что Mutarjim конкурирует с моделями, в 20 раз большими по размеру, при этом значительно снижая вычислительные затраты и требования к обучению. Мы также представляем Tarjama-25 — новый бенчмарк, разработанный для преодоления ограничений существующих наборов данных для оценки арабско-английского перевода, таких как узкая предметная область, короткая длина предложений и смещение в сторону английского языка. Tarjama-25 включает 5000 экспертно проверенных пар предложений и охватывает широкий спектр областей, предлагая более всестороннюю и сбалансированную систему оценки. Примечательно, что Mutarjim достигает наилучших результатов в задаче перевода с английского на арабский в Tarjama-25, превосходя даже значительно более крупные и проприетарные модели, такие как GPT-4o mini. Мы публикуем Tarjama-25 в открытом доступе для поддержки будущих исследований и улучшения оценки систем арабско-английского перевода.
English
We introduce Mutarjim, a compact yet powerful language model for bidirectional Arabic-English translation. While large-scale LLMs have shown impressive progress in natural language processing tasks, including machine translation, smaller models. Leveraging this insight, we developed Mutarjim based on Kuwain-1.5B , a language model tailored for both Arabic and English. Despite its modest size, Mutarjim outperforms much larger models on several established benchmarks, achieved through an optimized two-phase training approach and a carefully curated, high-quality training corpus.. Experimental results show that Mutarjim rivals models up to 20 times larger while significantly reducing computational costs and training requirements. We also introduce Tarjama-25, a new benchmark designed to overcome limitations in existing Arabic-English benchmarking datasets, such as domain narrowness, short sentence lengths, and English-source bias. Tarjama-25 comprises 5,000 expert-reviewed sentence pairs and spans a wide range of domains, offering a more comprehensive and balanced evaluation framework. Notably, Mutarjim achieves state-of-the-art performance on the English-to-Arabic task in Tarjama-25, surpassing even significantly larger and proprietary models like GPT-4o mini. We publicly release Tarjama-25 to support future research and advance the evaluation of Arabic-English translation systems.

Summary

AI-Generated Summary

PDF2026May 27, 2025