Knesset-DictaBERT : Un modèle de langage hébreu pour les débats parlementaires
Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings
July 30, 2024
Auteurs: Gili Goldin, Shuly Wintner
cs.AI
Résumé
Nous présentons Knesset-DictaBERT, un modèle de langage hébreu de grande taille affiné sur le corpus de la Knesset, qui comprend les débats parlementaires israéliens. Ce modèle s'appuie sur l'architecture DictaBERT et démontre des améliorations significatives dans la compréhension du langage parlementaire selon la tâche de masquage de mots (MLM). Nous fournissons une évaluation détaillée des performances du modèle, montrant des améliorations en termes de perplexité et de précision par rapport au modèle de base DictaBERT.
English
We present Knesset-DictaBERT, a large Hebrew language model fine-tuned on the
Knesset Corpus, which comprises Israeli parliamentary proceedings. The model is
based on the DictaBERT architecture and demonstrates significant improvements
in understanding parliamentary language according to the MLM task. We provide a
detailed evaluation of the model's performance, showing improvements in
perplexity and accuracy over the baseline DictaBERT model.Summary
AI-Generated Summary