Knesset-DictaBERT: 의회 회의록을 위한 히브리어 언어 모델
Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings
July 30, 2024
저자: Gili Goldin, Shuly Wintner
cs.AI
초록
우리는 이스라엘 의회 회의록으로 구성된 Knesset 코퍼스에 미세 조정된 대형 히브리어 언어 모델인 Knesset-DictaBERT를 소개합니다. 이 모델은 DictaBERT 아키텍처를 기반으로 하며, MLM(Masked Language Modeling) 작업에서 의회 언어 이해 능력이 크게 향상되었음을 보여줍니다. 우리는 모델의 성능을 상세히 평가하여, 기준이 되는 DictaBERT 모델 대비 perplexity와 정확도 측면에서 개선된 결과를 제시합니다.
English
We present Knesset-DictaBERT, a large Hebrew language model fine-tuned on the
Knesset Corpus, which comprises Israeli parliamentary proceedings. The model is
based on the DictaBERT architecture and demonstrates significant improvements
in understanding parliamentary language according to the MLM task. We provide a
detailed evaluation of the model's performance, showing improvements in
perplexity and accuracy over the baseline DictaBERT model.