ChatPaper.aiChatPaper

Rapporto Tecnico H2O-Danube3

H2O-Danube3 Technical Report

July 12, 2024
Autori: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI

Abstract

Presentiamo H2O-Danube3, una serie di piccoli modelli linguistici composta da H2O-Danube3-4B, addestrato su 6T di token, e H2O-Danube3-500M, addestrato su 4T di token. I nostri modelli sono pre-addestrati su dati Web di alta qualità, costituiti principalmente da token in inglese, in tre fasi con diverse combinazioni di dati, prima della messa a punto finale supervisionata per la versione chat. I modelli mostrano metriche altamente competitive in una moltitudine di benchmark accademici, di chat e di fine-tuning. Grazie alla sua architettura compatta, H2O-Danube3 può essere eseguito in modo efficiente su uno smartphone moderno, consentendo inferenza locale e capacità di elaborazione rapida anche su dispositivi mobili. Rendiamo tutti i modelli disponibili pubblicamente con licenza Apache 2.0, democratizzando ulteriormente i LLM per un pubblico più ampio in modo economico.
English
We present H2O-Danube3, a series of small language models consisting of H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T tokens. Our models are pre-trained on high quality Web data consisting of primarily English tokens in three stages with different data mixes before final supervised tuning for chat version. The models exhibit highly competitive metrics across a multitude of academic, chat, and fine-tuning benchmarks. Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a modern smartphone, enabling local inference and rapid processing capabilities even on mobile devices. We make all models openly available under Apache 2.0 license further democratizing LLMs to a wider audience economically.
PDF192November 28, 2024