Relatório Técnico do Arcee Trinity Large

Resumo

Apresentamos o relatório técnico do Arcee Trinity Large, um modelo esparso de Mistura de Especialistas (Mixture-of-Experts) com 400 bilhões de parâmetros totais e 13 bilhões ativados por token. Adicionalmente, relatamos sobre o Trinity Nano e o Trinity Mini, sendo que o Trinity Nano possui 6 bilhões de parâmetros totais com 1 bilhão ativados por token, e o Trinity Mini possui 26 bilhões de parâmetros totais com 3 bilhões ativados por token. A arquitetura moderna dos modelos inclui atenção intercalada local e global, atenção com portão (gated attention), normalização "sanduíche" escalonada por profundidade (depth-scaled sandwich norm) e roteamento por sigmoide para a Mistura de Especialistas. Para o Trinity Large, também introduzimos uma nova estratégia de balanceamento de carga para MoE intitulada Soft-clamped Momentum Expert Bias Updates (SMEBU). Treinamos os modelos utilizando o otimizador Muon. Todos os três modelos concluíram o treinamento sem picos de perda (zero loss spikes). O Trinity Nano e o Trinity Mini foram pré-treinados em 10 trilhões de tokens, e o Trinity Large foi pré-treinado em 17 trilhões de tokens. Os *checkpoints* dos modelos estão disponíveis em https://huggingface.co/arcee-ai.

English

We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.

Relatório Técnico do Arcee Trinity Large

Arcee Trinity Large Technical Report

Resumo

Support