Rapport technique H2O-Danube3
H2O-Danube3 Technical Report
July 12, 2024
Auteurs: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
Résumé
Nous présentons H2O-Danube3, une série de petits modèles de langage comprenant H2O-Danube3-4B, entraîné sur 6 000 milliards de tokens, et H2O-Danube3-500M, entraîné sur 4 000 milliards de tokens. Nos modèles sont pré-entraînés sur des données Web de haute qualité, composées principalement de tokens en anglais, en trois étapes avec différents mélanges de données avant un réglage supervisé final pour la version de chat. Les modèles affichent des métriques très compétitives sur une multitude de benchmarks académiques, de chat et de fine-tuning. Grâce à son architecture compacte, H2O-Danube3 peut être exécuté efficacement sur un smartphone moderne, permettant une inférence locale et des capacités de traitement rapide même sur des appareils mobiles. Nous rendons tous les modèles librement disponibles sous licence Apache 2.0, contribuant ainsi à démocratiser les LLM pour un public plus large de manière économique.
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.Summary
AI-Generated Summary