SaulLM-54B & SaulLM-141B: 법률 도메인 적응을 위한 규모 확장
SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain
July 28, 2024
저자: Pierre Colombo, Telmo Pires, Malik Boudiaf, Rui Melo, Dominic Culver, Sofia Morgado, Etienne Malaboeuf, Gabriel Hautreux, Johanne Charpentier, Michael Desa
cs.AI
초록
본 논문에서는 법률 분야에 특화된 두 가지 대규모 언어 모델(LLM)인 SaulLM-54B와 SaulLM-141B를 소개합니다. 각각 540억 개와 1,410억 개의 파라미터를 갖춘 이 모델들은 Mixtral 아키텍처를 기반으로 개발되었습니다. SaulLM-54B와 SaulLM-141B의 개발은 대규모 도메인 적응을 중심으로 세 가지 전략으로 나뉘어 진행되었습니다: (1) 5,400억 개 이상의 법률 토큰을 포함한 기본 코퍼스를 활용한 지속적 사전 학습, (2) 법률 특화 지시-따르기 프로토콜의 구현, (3) 법률 해석에서 모델 출력과 인간 선호도의 정렬. 두 번째와 세 번째 단계에서 합성적으로 생성된 데이터를 통합함으로써, 이 모델들은 법률 텍스트 해석 및 처리 능력을 크게 향상시켜 최신 기술 수준의 성능을 달성하고 LegalBench-Instruct에서 기존의 오픈소스 모델들을 능가했습니다. 이 연구는 이러한 규모의 도메인 특화 적응 과정에서 발생하는 트레이드오프를 탐구하며, 강력한 디코더 모델을 사용한 도메인 적응에 대한 향후 연구에 유용한 통찰을 제공합니다. SaulLM-7B를 기반으로 한 이 연구는 법률 작업에 더 적합한 LLM을 생산하기 위한 접근 방식을 개선했습니다. 우리는 SaulLM-54B와 SaulLM-141B를 기반으로 한 기본 버전, 지시 버전, 정렬 버전을 MIT 라이선스 하에 공개하여 재사용과 협력적 연구를 촉진하고자 합니다.
English
In this paper, we introduce SaulLM-54B and SaulLM-141B, two large language
models (LLMs) tailored for the legal sector. These models, which feature
architectures of 54 billion and 141 billion parameters, respectively, are based
on the Mixtral architecture. The development of SaulLM-54B and SaulLM-141B is
guided by large-scale domain adaptation, divided into three strategies: (1) the
exploitation of continued pretraining involving a base corpus that includes
over 540 billion of legal tokens, (2) the implementation of a specialized legal
instruction-following protocol, and (3) the alignment of model outputs with
human preferences in legal interpretations. The integration of synthetically
generated data in the second and third steps enhances the models' capabilities
in interpreting and processing legal texts, effectively reaching
state-of-the-art performance and outperforming previous open-source models on
LegalBench-Instruct. This work explores the trade-offs involved in
domain-specific adaptation at this scale, offering insights that may inform
future studies on domain adaptation using strong decoder models. Building upon
SaulLM-7B, this study refines the approach to produce an LLM better equipped
for legal tasks. We are releasing base, instruct, and aligned versions on top
of SaulLM-54B and SaulLM-141B under the MIT License to facilitate reuse and
collaborative research.Summary
AI-Generated Summary