Technisch Rapport Xmodel-LM

Samenvatting

We introduceren Xmodel-LM, een compact en efficiënt taalmodel van 1,1 miljard parameters, voorgetraind op meer dan 2 biljoen tokens. Het model is getraind op onze zelfgebouwde dataset (Xdata), die een balans vindt tussen Chinese en Engelse corpora op basis van optimalisatie voor downstream taken. Ondanks zijn kleinere omvang toont Xmodel-LM opmerkelijke prestaties en overtreft het bestaande open-source taalmodellen van vergelijkbare schaal. Onze modelcheckpoints en code zijn openbaar toegankelijk op GitHub via https://github.com/XiaoduoAILab/XmodelLM.

English

We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on over 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM.

Technisch Rapport Xmodel-LM

Xmodel-LM Technical Report

Samenvatting

Support