H2O-Danube3 技術報告書
H2O-Danube3 Technical Report
July 12, 2024
著者: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
要旨
本論文では、6Tトークンで学習されたH2O-Danube3-4Bと、4Tトークンで学習されたH2O-Danube3-500Mからなる小規模言語モデルシリーズ、H2O-Danube3を紹介する。我々のモデルは、主に英語トークンで構成される高品質なウェブデータを用いて、異なるデータミックスによる3段階の事前学習を経て、最終的にチャット版のための教師ありチューニングが施されている。これらのモデルは、学術、チャット、およびファインチューニングのベンチマークにおいて、非常に競争力のある指標を示している。コンパクトなアーキテクチャにより、H2O-Danube3は最新のスマートフォン上でも効率的に動作し、モバイルデバイス上でのローカル推論と迅速な処理能力を実現する。我々は、すべてのモデルをApache 2.0ライセンスの下で公開し、LLMを経済的に広範なユーザーに普及させることを目指している。
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.Summary
AI-Generated Summary