MiniCPM-SALA: Hybridisatie van Sparse en Lineaire Attention voor Efficiënte Modellering van Lange Contexten

Samenvatting

De evolutie van grote taalmmodellen (LLM's) naar toepassingen met ultra-lange contexten wordt belemmerd door de hoge rekenkundige en geheugenkosten van de Transformer-architectuur. Hoewel bestaande sparse en lineaire aandachtmechanismen deze problemen proberen te verlichten, gaan ze doorgaans gepaard met een afweging tussen geheugenefficiëntie en modelprestaties. Dit artikel introduceert MiniCPM-SALA, een hybride architectuur met 9B parameters die de hoogwaardige modellering van lange contexten van sparse aandacht (InfLLM-V2) integreert met de globale efficiëntie van lineaire aandacht (Lightning Attention). Door een laagselectiealgoritme te gebruiken om deze mechanismen in een verhouding van 1:3 te integreren en een hybride positionele codering (HyPE) te benutten, handhaaft het model efficiëntie en prestaties voor taken met lange contexten. Verder introduceren we een kosteneffectief continu-trainingsraamwerk dat vooraf getrainde Transformer-gebaseerde modellen omzet in hybride modellen, wat de trainingskosten met ongeveer 75% verlaagt in vergelijking met training vanaf nul. Uitgebreide experimenten tonen aan dat MiniCPM-SALA algemene capaciteiten handhaaft die vergelijkbaar zijn met modellen met volledige aandacht, terwijl het een verbeterde efficiëntie biedt. Op een enkele NVIDIA A6000D GPU bereikt het model een inferentiesnelheid tot 3,5x die van het model met volledige aandacht bij een sequentielengte van 256K tokens en ondersteunt het contextlengtes van maximaal 1M tokens – een schaal waarop traditionele 8B-modellen met volledige aandacht falen vanwege geheugenbeperkingen.

English

The evolution of large language models (LLMs) towards applications with ultra-long contexts faces challenges posed by the high computational and memory costs of the Transformer architecture. While existing sparse and linear attention mechanisms attempt to mitigate these issues, they typically involve a trade-off between memory efficiency and model performance. This paper introduces MiniCPM-SALA, a 9B-parameter hybrid architecture that integrates the high-fidelity long-context modeling of sparse attention (InfLLM-V2) with the global efficiency of linear attention (Lightning Attention). By employing a layer selection algorithm to integrate these mechanisms in a 1:3 ratio and utilizing a hybrid positional encoding (HyPE), the model maintains efficiency and performance for long-context tasks. Furthermore, we introduce a cost-effective continual training framework that transforms pre-trained Transformer-based models into hybrid models, which reduces training costs by approximately 75% compared to training from scratch. Extensive experiments show that MiniCPM-SALA maintains general capabilities comparable to full-attention models while offering improved efficiency. On a single NVIDIA A6000D GPU, the model achieves up to 3.5x the inference speed of the full-attention model at the sequence length of 256K tokens and supports context lengths of up to 1M tokens, a scale where traditional full-attention 8B models fail because of memory constraints.

MiniCPM-SALA: Hybridisatie van Sparse en Lineaire Attention voor Efficiënte Modellering van Lange Contexten

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Samenvatting

Support