ChatPaper.aiChatPaper

Rapport technique Trillion 7B

Trillion 7B Technical Report

April 21, 2025
Auteurs: Sungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jamin Shin
cs.AI

Résumé

Nous présentons Trillion-7B, le modèle de langage multilingue (LLM) centré sur le coréen le plus efficace en termes de tokens. Notre nouveau mécanisme d'attention interlingue sur les documents (XLDA) permet un transfert de connaissances hautement efficace de l'anglais vers des langues cibles comme le coréen et le japonais. Combiné à des mélanges de données optimisés, un filtrage spécifique à chaque langue et une construction de tokenizer sur mesure, Trillion-7B atteint des performances compétitives tout en consacrant seulement 10 % de ses 2 000 milliards de tokens d'entraînement aux données multilingues et en nécessitant seulement 59 400 heures de GPU H100 (148 000 dollars) pour un entraînement complet. Des évaluations approfondies sur 27 benchmarks dans quatre langues démontrent les performances multilingues robustes de Trillion-7B et son exceptionnelle cohérence interlingue.
English
We introduce Trillion-7B, the most token-efficient Korean-centric multilingual LLM available. Our novel Cross-lingual Document Attention (XLDA) mechanism enables highly efficient and effective knowledge transfer from English to target languages like Korean and Japanese. Combined with optimized data mixtures, language-specific filtering, and tailored tokenizer construction, Trillion-7B achieves competitive performance while dedicating only 10\% of its 2T training tokens to multilingual data and requiring just 59.4K H100 GPU hours (\$148K) for full training. Comprehensive evaluations across 27 benchmarks in four languages demonstrate Trillion-7B's robust multilingual performance and exceptional cross-lingual consistency.

Summary

AI-Generated Summary

PDF342April 24, 2025