H2O-Danube3 Technisch Rapport
H2O-Danube3 Technical Report
July 12, 2024
Auteurs: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
Samenvatting
We presenteren H2O-Danube3, een reeks kleine taalmodelen bestaande uit H2O-Danube3-4B, getraind op 6T tokens, en H2O-Danube3-500M, getraind op 4T tokens. Onze modellen zijn voorgetraind op hoogwaardige webdata, voornamelijk bestaande uit Engelse tokens, in drie fasen met verschillende datamixen, gevolgd door een laatste afstemming voor de chatversie. De modellen vertonen zeer competitieve prestaties op een breed scala aan academische, chat- en fine-tuning benchmarks. Dankzij de compacte architectuur kan H2O-Danube3 efficiënt worden uitgevoerd op een moderne smartphone, wat lokale inferentie en snelle verwerkingsmogelijkheden mogelijk maakt, zelfs op mobiele apparaten. We stellen alle modellen openbaar beschikbaar onder de Apache 2.0-licentie, waardoor LLM's economisch toegankelijker worden voor een breder publiek.
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.