Knesset-DictaBERT: Um Modelo de Linguagem Hebraico para Processos Parlamentares
Knesset-DictaBERT: A Hebrew Language Model for Parliamentary Proceedings
July 30, 2024
Autores: Gili Goldin, Shuly Wintner
cs.AI
Resumo
Apresentamos o Knesset-DictaBERT, um grande modelo de linguagem em hebraico ajustado no Corpus do Knesset, que compreende os procedimentos parlamentares israelenses. O modelo é baseado na arquitetura do DictaBERT e demonstra melhorias significativas na compreensão da linguagem parlamentar de acordo com a tarefa de MLM. Fornecemos uma avaliação detalhada do desempenho do modelo, mostrando melhorias na perplexidade e na precisão em relação ao modelo base DictaBERT.
English
We present Knesset-DictaBERT, a large Hebrew language model fine-tuned on the
Knesset Corpus, which comprises Israeli parliamentary proceedings. The model is
based on the DictaBERT architecture and demonstrates significant improvements
in understanding parliamentary language according to the MLM task. We provide a
detailed evaluation of the model's performance, showing improvements in
perplexity and accuracy over the baseline DictaBERT model.Summary
AI-Generated Summary