Технический отчет H2O-Danube3
H2O-Danube3 Technical Report
July 12, 2024
Авторы: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
Аннотация
Мы представляем H2O-Danube3, серию небольших языковых моделей, включающую в себя H2O-Danube3-4B, обученную на 6T токенов, и H2O-Danube3-500M, обученную на 4T токенов. Наши модели предварительно обучены на высококачественных веб-данных, в основном состоящих из английских токенов, на трех этапах с различными комбинациями данных перед окончательной настройкой под наблюдением для версии чата. Модели проявляют высокую конкурентоспособность по множеству академических, чатовых и тестовых показателей. Благодаря их компактной архитектуре, H2O-Danube3 может быть эффективно запущена на современном смартфоне, обеспечивая возможности локального вывода и быстрые возможности обработки даже на мобильных устройствах. Мы делаем все модели открыто доступными под лицензией Apache 2.0, дополнительно демократизируя LLM для более широкой аудитории экономически.
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.Summary
AI-Generated Summary