ChatPaper.aiChatPaper

Hunyuan-Large: Un modelo MoE de código abierto con 52 mil millones de parámetros activados por Tencent.

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

November 4, 2024
Autores: Xingwu Sun, Yanfeng Chen, Yiqing Huang, Ruobing Xie, Jiaqi Zhu, Kai Zhang, Shuaipeng Li, Zhen Yang, Jonny Han, Xiaobo Shu, Jiahao Bu, Zhongzhi Chen, Xuemeng Huang, Fengzong Lian, Saiyong Yang, Jianfeng Yan, Yuyuan Zeng, Xiaoqin Ren, Chao Yu, Lulu Wu, Yue Mao, Tao Yang, Suncong Zheng, Kan Wu, Dian Jiao, Jinbao Xue, Xipeng Zhang, Decheng Wu, Kai Liu, Dengpeng Wu, Guanghui Xu, Shaohua Chen, Shuang Chen, Xiao Feng, Yigeng Hong, Junqiang Zheng, Chengcheng Xu, Zongwei Li, Xiong Kuang, Jianglu Hu, Yiqi Chen, Yuchi Deng, Guiyang Li, Ao Liu, Chenchen Zhang, Shihui Hu, Zilong Zhao, Zifan Wu, Yao Ding, Weichao Wang, Han Liu, Roberts Wang, Hao Fei, Peijie She, Ze Zhao, Xun Cao, Hai Wang, Fusheng Xiang, Mengyuan Huang, Zhiyuan Xiong, Bin Hu, Xuebin Hou, Lei Jiang, Jiajia Wu, Yaping Deng, Yi Shen, Qian Wang, Weijie Liu, Jie Liu, Meng Chen, Liang Dong, Weiwen Jia, Hu Chen, Feifei Liu, Rui Yuan, Huilin Xu, Zhenxiang Yan, Tengfei Cao, Zhichao Hu, Xinhua Feng, Dong Du, Tinghao She, Yangyu Tao, Feng Zhang, Jianchen Zhu, Chengzhong Xu, Xirui Li, Chong Zha, Wen Ouyang, Yinben Xia, Xiang Li, Zekun He, Rongpeng Chen, Jiawei Song, Ruibin Chen, Fan Jiang, Chongqing Zhao, Bo Wang, Hao Gong, Rong Gan, Winston Hu, Zhanhui Kang, Yong Yang, Yuhong Liu, Di Wang, Jie Jiang
cs.AI

Resumen

En este documento, presentamos Hunyuan-Large, que actualmente es el modelo de mezcla de expertos basado en Transformers de código abierto más grande, con un total de 389 mil millones de parámetros y 52 mil millones de parámetros de activación, capaz de manejar hasta 256K tokens. Realizamos una evaluación exhaustiva del rendimiento superior de Hunyuan-Large en varios benchmarks, incluyendo comprensión y generación de lenguaje, razonamiento lógico, resolución de problemas matemáticos, codificación, tareas de largo contexto y tareas agregadas, donde supera a LLama3.1-70B y muestra un rendimiento comparable en comparación con el modelo significativamente más grande LLama3.1-405B. Las prácticas clave de Hunyuan-Large incluyen datos sintéticos a gran escala que son órdenes de magnitud mayores que en la literatura previa, una estrategia de enrutamiento de expertos mixtos, una técnica de compresión de caché clave-valor y una estrategia de tasa de aprendizaje específica para expertos. Además, también investigamos las leyes de escalado y el programa de tasa de aprendizaje de los modelos de mezcla de expertos, proporcionando ideas valiosas y orientación para el desarrollo y optimización de modelos futuros. El código y los puntos de control de Hunyuan-Large se han publicado para facilitar futuras innovaciones y aplicaciones. Códigos: https://github.com/Tencent/Hunyuan-Large Modelos: https://huggingface.co/tencent/Tencent-Hunyuan-Large
English
In this paper, we introduce Hunyuan-Large, which is currently the largest open-source Transformer-based mixture of experts model, with a total of 389 billion parameters and 52 billion activation parameters, capable of handling up to 256K tokens. We conduct a thorough evaluation of Hunyuan-Large's superior performance across various benchmarks including language understanding and generation, logical reasoning, mathematical problem-solving, coding, long-context, and aggregated tasks, where it outperforms LLama3.1-70B and exhibits comparable performance when compared to the significantly larger LLama3.1-405B model. Key practice of Hunyuan-Large include large-scale synthetic data that is orders larger than in previous literature, a mixed expert routing strategy, a key-value cache compression technique, and an expert-specific learning rate strategy. Additionally, we also investigate the scaling laws and learning rate schedule of mixture of experts models, providing valuable insights and guidances for future model development and optimization. The code and checkpoints of Hunyuan-Large are released to facilitate future innovations and applications. Codes: https://github.com/Tencent/Hunyuan-Large Models: https://huggingface.co/tencent/Tencent-Hunyuan-Large

Summary

AI-Generated Summary

PDF251November 13, 2024