ChatPaper.aiChatPaper

트릴리언 7B 기술 보고서

Trillion 7B Technical Report

April 21, 2025
저자: Sungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jamin Shin
cs.AI

초록

우리는 토큰 효율성이 가장 뛰어난 한국어 중심의 다국어 대형 언어 모델인 Trillion-7B를 소개합니다. 우리의 새로운 교차 언어 문서 주의 메커니즘(Cross-lingual Document Attention, XLDA)은 영어에서 한국어, 일본어와 같은 대상 언어로의 지식 전달을 매우 효율적이고 효과적으로 가능하게 합니다. 최적화된 데이터 혼합, 언어별 필터링, 그리고 맞춤형 토크나이저 구축과 결합된 Trillion-7B는 전체 2조(2T) 학습 토큰 중 단 10%만 다국어 데이터에 할당하고, 전체 학습에 단 59.4K H100 GPU 시간(\$148K)만 필요로 하면서도 경쟁력 있는 성능을 달성합니다. 4개 언어에 걸친 27개 벤치마크에서의 포괄적인 평가는 Trillion-7B의 견고한 다국어 성능과 탁월한 교차 언어 일관성을 입증합니다.
English
We introduce Trillion-7B, the most token-efficient Korean-centric multilingual LLM available. Our novel Cross-lingual Document Attention (XLDA) mechanism enables highly efficient and effective knowledge transfer from English to target languages like Korean and Japanese. Combined with optimized data mixtures, language-specific filtering, and tailored tokenizer construction, Trillion-7B achieves competitive performance while dedicating only 10\% of its 2T training tokens to multilingual data and requiring just 59.4K H100 GPU hours (\$148K) for full training. Comprehensive evaluations across 27 benchmarks in four languages demonstrate Trillion-7B's robust multilingual performance and exceptional cross-lingual consistency.

Summary

AI-Generated Summary

PDF342April 24, 2025