Technischer Bericht von H2O-Danube3
H2O-Danube3 Technical Report
July 12, 2024
Autoren: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
Zusammenfassung
Wir präsentieren H2O-Danube3, eine Serie kleiner Sprachmodelle, bestehend aus H2O-Danube3-4B, trainiert auf 6T Tokens, und H2O-Danube3-500M, trainiert auf 4T Tokens. Unsere Modelle sind in drei Stufen mit unterschiedlichen Datensätzen vor dem abschließenden überwachten Feintuning für die Chat-Version auf hochwertigen Webdaten, hauptsächlich bestehend aus englischen Tokens, vorab trainiert. Die Modelle zeigen äußerst wettbewerbsfähige Metriken über eine Vielzahl von akademischen, Chat- und Feintuning-Benchmarks. Dank seiner kompakten Architektur kann H2O-Danube3 effizient auf einem modernen Smartphone ausgeführt werden, was lokale Inferenz und schnelle Verarbeitungsfähigkeiten auch auf mobilen Geräten ermöglicht. Wir stellen alle Modelle unter der Apache 2.0 Lizenz offen zur Verfügung, um LLMs weiter zu demokratisieren und einem breiteren Publikum wirtschaftlich zugänglich zu machen.
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.Summary
AI-Generated Summary