ChatPaper.aiChatPaper

Informe Técnico de Trillion 7B

Trillion 7B Technical Report

April 21, 2025
Autores: Sungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jamin Shin
cs.AI

Resumen

Presentamos Trillion-7B, el modelo de lenguaje multilingüe (LLM) centrado en coreano más eficiente en términos de tokens disponible. Nuestro novedoso mecanismo de Atención de Documentos Translingüe (XLDA, por sus siglas en inglés) permite una transferencia de conocimiento altamente eficiente y efectiva del inglés a idiomas objetivo como el coreano y el japonés. Combinado con mezclas de datos optimizadas, filtrado específico por idioma y la construcción de tokenizadores personalizados, Trillion-7B logra un rendimiento competitivo mientras dedica solo el 10\% de sus 2 billones de tokens de entrenamiento a datos multilingües y requiere únicamente 59.4K horas de GPU H100 (\$148K) para su entrenamiento completo. Evaluaciones exhaustivas en 27 benchmarks en cuatro idiomas demuestran el sólido rendimiento multilingüe de Trillion-7B y su excepcional consistencia translingüe.
English
We introduce Trillion-7B, the most token-efficient Korean-centric multilingual LLM available. Our novel Cross-lingual Document Attention (XLDA) mechanism enables highly efficient and effective knowledge transfer from English to target languages like Korean and Japanese. Combined with optimized data mixtures, language-specific filtering, and tailored tokenizer construction, Trillion-7B achieves competitive performance while dedicating only 10\% of its 2T training tokens to multilingual data and requiring just 59.4K H100 GPU hours (\$148K) for full training. Comprehensive evaluations across 27 benchmarks in four languages demonstrate Trillion-7B's robust multilingual performance and exceptional cross-lingual consistency.

Summary

AI-Generated Summary

PDF342April 24, 2025