MiniCPM-SALA: Hibridização de Atenção Esparsa e Linear para Modelagem Eficiente de Contexto Longo

Resumo

A evolução de grandes modelos de linguagem (LLMs) para aplicações com contextos ultra-longos enfrenta desafios impostos pelos elevados custos computacionais e de memória da arquitetura Transformer. Embora os mecanismos de atenção esparsa e linear existentes tentem mitigar esses problemas, eles geralmente envolvem um compromisso entre eficiência de memória e desempenho do modelo. Este artigo apresenta o MiniCPM-SALA, uma arquitetura híbrida de 9B de parâmetros que integra a modelagem de contexto longo de alta fidelidade da atenção esparsa (InfLLM-V2) com a eficiência global da atenção linear (Lightning Attention). Ao empregar um algoritmo de seleção de camadas para integrar esses mecanismos numa proporção de 1:3 e utilizar uma codificação posicional híbrida (HyPE), o modelo mantém a eficiência e o desempenho em tarefas de contexto longo. Além disso, introduzimos uma estrutura de treino contínuo de baixo custo que transforma modelos pré-treinados baseados em Transformer em modelos híbridos, reduzindo os custos de treino em aproximadamente 75% em comparação com o treino a partir do zero. Experimentos extensivos mostram que o MiniCPM-SALA mantém capacidades gerais comparáveis aos modelos de atenção completa, ao mesmo tempo que oferece uma eficiência melhorada. Num único GPU NVIDIA A6000D, o modelo atinge até 3,5x a velocidade de inferência do modelo de atenção completa no comprimento de sequência de 256K *tokens* e suporta contextos de até 1M de *tokens*, uma escala na qual os modelos tradicionais de 8B com atenção completa falham devido a restrições de memória.

English

The evolution of large language models (LLMs) towards applications with ultra-long contexts faces challenges posed by the high computational and memory costs of the Transformer architecture. While existing sparse and linear attention mechanisms attempt to mitigate these issues, they typically involve a trade-off between memory efficiency and model performance. This paper introduces MiniCPM-SALA, a 9B-parameter hybrid architecture that integrates the high-fidelity long-context modeling of sparse attention (InfLLM-V2) with the global efficiency of linear attention (Lightning Attention). By employing a layer selection algorithm to integrate these mechanisms in a 1:3 ratio and utilizing a hybrid positional encoding (HyPE), the model maintains efficiency and performance for long-context tasks. Furthermore, we introduce a cost-effective continual training framework that transforms pre-trained Transformer-based models into hybrid models, which reduces training costs by approximately 75% compared to training from scratch. Extensive experiments show that MiniCPM-SALA maintains general capabilities comparable to full-attention models while offering improved efficiency. On a single NVIDIA A6000D GPU, the model achieves up to 3.5x the inference speed of the full-attention model at the sequence length of 256K tokens and supports context lengths of up to 1M tokens, a scale where traditional full-attention 8B models fail because of memory constraints.

MiniCPM-SALA: Hibridização de Atenção Esparsa e Linear para Modelagem Eficiente de Contexto Longo

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Resumo

Support