ChatPaper.aiChatPaper

Knesset-DictaBERT: 의회 회의록을 위한 히브리어 언어 모델

Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings

July 30, 2024
저자: Gili Goldin, Shuly Wintner
cs.AI

초록

우리는 이스라엘 의회 회의록으로 구성된 Knesset 코퍼스에 미세 조정된 대형 히브리어 언어 모델인 Knesset-DictaBERT를 소개합니다. 이 모델은 DictaBERT 아키텍처를 기반으로 하며, MLM(Masked Language Modeling) 작업에서 의회 언어 이해 능력이 크게 향상되었음을 보여줍니다. 우리는 모델의 성능을 상세히 평가하여, 기준이 되는 DictaBERT 모델 대비 perplexity와 정확도 측면에서 개선된 결과를 제시합니다.
English
We present Knesset-DictaBERT, a large Hebrew language model fine-tuned on the Knesset Corpus, which comprises Israeli parliamentary proceedings. The model is based on the DictaBERT architecture and demonstrates significant improvements in understanding parliamentary language according to the MLM task. We provide a detailed evaluation of the model's performance, showing improvements in perplexity and accuracy over the baseline DictaBERT model.
PDF251November 28, 2024