Hunyuan-Large: Um Modelo MoE de Código Aberto com 52 Bilhões de Parâmetros Ativados pela Tencent

Resumo

Neste artigo, apresentamos o Hunyuan-Large, que é atualmente o maior modelo de mistura de especialistas baseado em Transformer de código aberto, com um total de 389 bilhões de parâmetros e 52 bilhões de parâmetros de ativação, capaz de lidar com até 256 mil tokens. Realizamos uma avaliação abrangente do desempenho superior do Hunyuan-Large em vários benchmarks, incluindo compreensão e geração de linguagem, raciocínio lógico, resolução de problemas matemáticos, codificação, contexto longo e tarefas agregadas, onde supera o LLama3.1-70B e apresenta desempenho comparável ao modelo significativamente maior LLama3.1-405B. As principais práticas do Hunyuan-Large incluem dados sintéticos em grande escala, muito maiores do que na literatura anterior, uma estratégia de roteamento de especialistas mistos, uma técnica de compressão de cache chave-valor e uma estratégia de taxa de aprendizado específica para especialistas. Além disso, investigamos as leis de escalonamento e o cronograma de taxa de aprendizado de modelos de mistura de especialistas, fornecendo insights valiosos e orientações para o desenvolvimento e otimização de modelos futuros. O código e os pontos de verificação do Hunyuan-Large foram disponibilizados para facilitar futuras inovações e aplicações. Códigos: https://github.com/Tencent/Hunyuan-Large Modelos: https://huggingface.co/tencent/Tencent-Hunyuan-Large

English

In this paper, we introduce Hunyuan-Large, which is currently the largest open-source Transformer-based mixture of experts model, with a total of 389 billion parameters and 52 billion activation parameters, capable of handling up to 256K tokens. We conduct a thorough evaluation of Hunyuan-Large's superior performance across various benchmarks including language understanding and generation, logical reasoning, mathematical problem-solving, coding, long-context, and aggregated tasks, where it outperforms LLama3.1-70B and exhibits comparable performance when compared to the significantly larger LLama3.1-405B model. Key practice of Hunyuan-Large include large-scale synthetic data that is orders larger than in previous literature, a mixed expert routing strategy, a key-value cache compression technique, and an expert-specific learning rate strategy. Additionally, we also investigate the scaling laws and learning rate schedule of mixture of experts models, providing valuable insights and guidances for future model development and optimization. The code and checkpoints of Hunyuan-Large are released to facilitate future innovations and applications. Codes: https://github.com/Tencent/Hunyuan-Large Models: https://huggingface.co/tencent/Tencent-Hunyuan-Large

Hunyuan-Large: Um Modelo MoE de Código Aberto com 52 Bilhões de Parâmetros Ativados pela Tencent

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Resumo

Support