Informe Técnico H2O-Danube3
H2O-Danube3 Technical Report
July 12, 2024
Autores: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
Resumen
Presentamos H2O-Danube3, una serie de pequeños modelos de lenguaje que consta de H2O-Danube3-4B, entrenado en 6T tokens y H2O-Danube3-500M, entrenado en 4T tokens. Nuestros modelos están pre-entrenados en datos web de alta calidad que consisten principalmente en tokens en inglés en tres etapas con diferentes combinaciones de datos antes de la afinación supervisada final para la versión de chat. Los modelos muestran métricas altamente competitivas en una multitud de benchmarks académicos, de chat y de ajuste fino. Gracias a su arquitectura compacta, H2O-Danube3 puede ejecutarse eficientemente en un smartphone moderno, lo que permite inferencias locales y capacidades de procesamiento rápido incluso en dispositivos móviles. Ponemos todos los modelos a disposición de forma abierta bajo la licencia Apache 2.0, democratizando aún más los LLMs para una audiencia más amplia económicamente.
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.Summary
AI-Generated Summary