Relatório Técnico H2O-Danube3
H2O-Danube3 Technical Report
July 12, 2024
Autores: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
Resumo
Apresentamos o H2O-Danube3, uma série de pequenos modelos de linguagem composta por H2O-Danube3-4B, treinado em 6T tokens e H2O-Danube3-500M, treinado em 4T tokens. Nossos modelos são pré-treinados em dados da Web de alta qualidade, consistindo principalmente de tokens em inglês, em três etapas com diferentes combinações de dados antes do ajuste supervisionado final para a versão de chat. Os modelos apresentam métricas altamente competitivas em uma variedade de benchmarks acadêmicos, de chat e de ajuste fino. Graças à sua arquitetura compacta, o H2O-Danube3 pode ser executado de forma eficiente em um smartphone moderno, possibilitando inferência local e capacidades de processamento rápido mesmo em dispositivos móveis. Disponibilizamos todos os modelos abertamente sob a licença Apache 2.0, democratizando ainda mais os LLMs para um público mais amplo economicamente.
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.