SaulLM-54B и SaulLM-141B: Масштабирование адаптации домена для юридической сферыSaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal
Domain
В данной статье мы представляем SaulLM-54B и SaulLM-141B, две большие языковые модели (LLM), разработанные специально для юридического сектора. Эти модели, с архитектурами на 54 миллиарда и 141 миллиард параметров соответственно, основаны на архитектуре Mixtral. Разработка SaulLM-54B и SaulLM-141B основана на масштабной доменной адаптации, разделенной на три стратегии: (1) использование продолжающегося предварительного обучения на базовом корпусе, включающем более 540 миллиардов юридических токенов, (2) внедрение специализированного протокола следования юридическим инструкциям и (3) согласование результатов модели с предпочтениями человека в юридических интерпретациях. Интеграция синтетически сгенерированных данных на втором и третьем этапах улучшает способности моделей в интерпретации и обработке юридических текстов, достигая эффективного уровня производительности и превосходя предыдущие модели с открытым исходным кодом на LegalBench-Instruct. Эта работа исследует компромиссы, связанные с доменно-специфической адаптацией на данном уровне, предлагая идеи, которые могут быть полезны для будущих исследований по адаптации домена с использованием мощных декодерных моделей. Основываясь на SaulLM-7B, данное исследование улучшает подход для создания LLM, более подготовленной для юридических задач. Мы выпускаем базовые, инструктивные и согласованные версии поверх SaulLM-54B и SaulLM-141B под лицензией MIT для облегчения повторного использования и совместных исследований.