Knesset-DictaBERT: Un Modello Linguistico per l'Ebraico nei Procedimenti Parlamentari
Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings
July 30, 2024
Autori: Gili Goldin, Shuly Wintner
cs.AI
Abstract
Presentiamo Knesset-DictaBERT, un modello linguistico di grandi dimensioni per l'ebraico, ottimizzato sul Knesset Corpus, che comprende i procedimenti parlamentari israeliani. Il modello si basa sull'architettura DictaBERT e dimostra miglioramenti significativi nella comprensione del linguaggio parlamentare secondo il compito di MLM (Masked Language Modeling). Forniamo una valutazione dettagliata delle prestazioni del modello, mostrando miglioramenti nella perplessità e nell'accuratezza rispetto al modello DictaBERT di base.
English
We present Knesset-DictaBERT, a large Hebrew language model fine-tuned on the
Knesset Corpus, which comprises Israeli parliamentary proceedings. The model is
based on the DictaBERT architecture and demonstrates significant improvements
in understanding parliamentary language according to the MLM task. We provide a
detailed evaluation of the model's performance, showing improvements in
perplexity and accuracy over the baseline DictaBERT model.