MiniCPM-SALA: Ibridazione dell'Attenzione Sparsa e Lineare per una Modellizzazione Efficiente di Contesti Lunghi

Abstract

L'evoluzione dei grandi modelli linguistici (LLM) verso applicazioni con contesti ultra-lunghi affronta le sfide poste dagli elevati costi computazionali e di memoria dell'architettura Transformer. Sebbene i meccanismi di attenzione sparsa e lineare esistenti tentino di mitigare questi problemi, comportano tipicamente un compromesso tra efficienza della memoria e prestazioni del modello. Questo articolo introduce MiniCPM-SALA, un'architettura ibrida da 9 miliardi di parametri che integra la modellazione fedele del contesto lungo dell'attenzione sparsa (InfLLM-V2) con l'efficienza globale dell'attenzione lineare (Lightning Attention). Impiegando un algoritmo di selezione degli strati per integrare questi meccanismi in un rapporto 1:3 e utilizzando una codifica posizionale ibrida (HyPE), il modello mantiene efficienza e prestazioni per compiti con contesti lunghi. Inoltre, introduciamo un framework di addestramento continuo economicamente vantaggioso che trasforma modelli pre-addestrati basati su Transformer in modelli ibridi, riducendo i costi di addestramento di circa il 75% rispetto all'addestramento da zero. Esperimenti estensivi dimostrano che MiniCPM-SALA mantiene capacità generali paragonabili ai modelli con attenzione completa, offrendo al contempo un'efficienza migliorata. Su una singola GPU NVIDIA A6000D, il modello raggiunge una velocità di inferenza fino a 3,5 volte superiore a quella del modello con attenzione completa per sequenze lunghe 256K token e supporta lunghezze di contesto fino a 1 milione di token, una scala in cui i tradizionali modelli da 8B con attenzione completa falliscono a causa dei vincoli di memoria.

English

The evolution of large language models (LLMs) towards applications with ultra-long contexts faces challenges posed by the high computational and memory costs of the Transformer architecture. While existing sparse and linear attention mechanisms attempt to mitigate these issues, they typically involve a trade-off between memory efficiency and model performance. This paper introduces MiniCPM-SALA, a 9B-parameter hybrid architecture that integrates the high-fidelity long-context modeling of sparse attention (InfLLM-V2) with the global efficiency of linear attention (Lightning Attention). By employing a layer selection algorithm to integrate these mechanisms in a 1:3 ratio and utilizing a hybrid positional encoding (HyPE), the model maintains efficiency and performance for long-context tasks. Furthermore, we introduce a cost-effective continual training framework that transforms pre-trained Transformer-based models into hybrid models, which reduces training costs by approximately 75% compared to training from scratch. Extensive experiments show that MiniCPM-SALA maintains general capabilities comparable to full-attention models while offering improved efficiency. On a single NVIDIA A6000D GPU, the model achieves up to 3.5x the inference speed of the full-attention model at the sequence length of 256K tokens and supports context lengths of up to 1M tokens, a scale where traditional full-attention 8B models fail because of memory constraints.

MiniCPM-SALA: Ibridazione dell'Attenzione Sparsa e Lineare per una Modellizzazione Efficiente di Contesti Lunghi

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Abstract

Support