H2O-Danube3 기술 보고서
H2O-Danube3 Technical Report
July 12, 2024
저자: Pascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
cs.AI
초록
H2O-Danube3 시리즈를 소개합니다. 이는 6T 토큰으로 학습된 H2O-Danube3-4B와 4T 토큰으로 학습된 H2O-Danube3-500M으로 구성된 소형 언어 모델입니다. 우리의 모델은 주로 영어 토큰으로 구성된 고품질 웹 데이터를 세 단계에 걸쳐 다양한 데이터 조합으로 사전 학습한 후, 최종적으로 채팅 버전을 위한 지도 튜닝을 거쳤습니다. 이 모델들은 다양한 학술, 채팅 및 파인튜닝 벤치마크에서 매우 경쟁력 있는 성능을 보여줍니다. 컴팩트한 아키텍처 덕분에 H2O-Danube3는 현대 스마트폰에서도 효율적으로 실행될 수 있어, 모바일 기기에서도 로컬 추론과 빠른 처리 능력을 가능하게 합니다. 우리는 모든 모델을 Apache 2.0 라이선스 하에 공개하여, 더 넓은 대중에게 경제적으로 LLM을 민주화하고자 합니다.
English
We present H2O-Danube3, a series of small language models consisting of
H2O-Danube3-4B, trained on 6T tokens and H2O-Danube3-500M, trained on 4T
tokens. Our models are pre-trained on high quality Web data consisting of
primarily English tokens in three stages with different data mixes before final
supervised tuning for chat version. The models exhibit highly competitive
metrics across a multitude of academic, chat, and fine-tuning benchmarks.
Thanks to its compact architecture, H2O-Danube3 can be efficiently run on a
modern smartphone, enabling local inference and rapid processing capabilities
even on mobile devices. We make all models openly available under Apache 2.0
license further democratizing LLMs to a wider audience economically.Summary
AI-Generated Summary