Mutarjim: Развитие двунаправленного арабско-английского перевода с использованием компактной языковой моделиMutarjim: Advancing Bidirectional Arabic-English Translation with a
Small Language Model
Мы представляем Mutarjim — компактную, но мощную языковую модель для двустороннего перевода между арабским и английским языками. Хотя крупномасштабные языковые модели (LLM) продемонстрировали впечатляющие успехи в задачах обработки естественного языка, включая машинный перевод, меньшие модели также могут быть эффективны. Используя это понимание, мы разработали Mutarjim на основе Kuwain-1.5B — языковой модели, адаптированной для работы как с арабским, так и с английским языками. Несмотря на скромный размер, Mutarjim превосходит значительно более крупные модели на нескольких авторитетных бенчмарках благодаря оптимизированному двухэтапному подходу к обучению и тщательно отобранному высококачественному обучающему корпусу. Экспериментальные результаты показывают, что Mutarjim конкурирует с моделями, в 20 раз большими по размеру, при этом значительно снижая вычислительные затраты и требования к обучению. Мы также представляем Tarjama-25 — новый бенчмарк, разработанный для преодоления ограничений существующих наборов данных для оценки арабско-английского перевода, таких как узкая предметная область, короткая длина предложений и смещение в сторону английского языка. Tarjama-25 включает 5000 экспертно проверенных пар предложений и охватывает широкий спектр областей, предлагая более всестороннюю и сбалансированную систему оценки. Примечательно, что Mutarjim достигает наилучших результатов в задаче перевода с английского на арабский в Tarjama-25, превосходя даже значительно более крупные и проприетарные модели, такие как GPT-4o mini. Мы публикуем Tarjama-25 в открытом доступе для поддержки будущих исследований и улучшения оценки систем арабско-английского перевода.