Rapport technique Trillion 7B
Trillion 7B Technical Report
April 21, 2025
Auteurs: Sungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jamin Shin
cs.AI
Résumé
Nous présentons Trillion-7B, le modèle de langage multilingue (LLM) centré sur le coréen le plus efficace en termes de tokens. Notre nouveau mécanisme d'attention interlingue sur les documents (XLDA) permet un transfert de connaissances hautement efficace de l'anglais vers des langues cibles comme le coréen et le japonais. Combiné à des mélanges de données optimisés, un filtrage spécifique à chaque langue et une construction de tokenizer sur mesure, Trillion-7B atteint des performances compétitives tout en consacrant seulement 10 % de ses 2 000 milliards de tokens d'entraînement aux données multilingues et en nécessitant seulement 59 400 heures de GPU H100 (148 000 dollars) pour un entraînement complet. Des évaluations approfondies sur 27 benchmarks dans quatre langues démontrent les performances multilingues robustes de Trillion-7B et son exceptionnelle cohérence interlingue.
English
We introduce Trillion-7B, the most token-efficient Korean-centric
multilingual LLM available. Our novel Cross-lingual Document Attention (XLDA)
mechanism enables highly efficient and effective knowledge transfer from
English to target languages like Korean and Japanese. Combined with optimized
data mixtures, language-specific filtering, and tailored tokenizer
construction, Trillion-7B achieves competitive performance while dedicating
only 10\% of its 2T training tokens to multilingual data and requiring just
59.4K H100 GPU hours (\$148K) for full training. Comprehensive evaluations
across 27 benchmarks in four languages demonstrate Trillion-7B's robust
multilingual performance and exceptional cross-lingual consistency.Summary
AI-Generated Summary