InfLLM-V2: Attenzione Commutabile Densa-Sparsa per un Adattamento Senza Soluzione di Continuità da Breve a Lungo
InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation
September 29, 2025
Autori: Weilin Zhao, Zihan Zhou, Zhou Su, Chaojun Xiao, Yuxuan Li, Yanghao Li, Yudi Zhang, Weilun Zhao, Zhen Li, Yuxiang Huang, Ao Sun, Xu Han, Zhiyuan Liu
cs.AI
Abstract
L'elaborazione di sequenze lunghe è una capacità cruciale per i moderni modelli linguistici di grandi dimensioni. Tuttavia, il meccanismo di self-attention nell'architettura standard del Transformer incontra gravi colli di bottiglia computazionali e di memoria quando elabora sequenze lunghe. Sebbene i metodi di attenzione sparsa addestrabili offrano una soluzione promettente, approcci esistenti come l'NSA introducono un eccesso di parametri aggiuntivi e interrompono il flusso di lavoro convenzionale di pre-addestramento su sequenze brevi e fine-tuning su sequenze lunghe, risultando in una convergenza lenta e difficoltà nell'accelerazione. Per superare queste limitazioni, introduciamo un framework di attenzione commutabile densa-sparsa, denominato InfLLM-V2. InfLLM-V2 è un'attenzione sparsa addestrabile che adatta in modo fluido i modelli da sequenze brevi a sequenze lunghe. Nello specifico, InfLLM-V2 riutilizza i parametri dell'attenzione densa attraverso una modifica architetturale priva di parametri, mantenendo la coerenza tra l'elaborazione di sequenze brevi e lunghe. Inoltre, InfLLM-V2 garantisce efficienza computazionale per tutte le lunghezze delle sequenze, utilizzando l'attenzione densa per input brevi e passando gradualmente all'attenzione sparsa per sequenze lunghe. Per ottenere un'accelerazione pratica, introduciamo ulteriormente un'implementazione efficiente di InfLLM-V2 che riduce significativamente il sovraccarico computazionale. I nostri esperimenti sulla comprensione di contesti lunghi e sul ragionamento a catena di pensiero dimostrano che InfLLM-V2 è 4 volte più veloce dell'attenzione densa, mantenendo rispettivamente il 98,1% e il 99,7% delle prestazioni. Basandoci sul framework InfLLM-V2, abbiamo addestrato e reso open-source MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), un modello di ragionamento ibrido, fornendo un'implementazione riproducibile per la comunità di ricerca.
English
Long-sequence processing is a critical capability for modern large language
models. However, the self-attention mechanism in the standard Transformer
architecture faces severe computational and memory bottlenecks when processing
long sequences. While trainable sparse attention methods offer a promising
solution, existing approaches such as NSA introduce excessive extra parameters
and disrupt the conventional pretrain-on-short, finetune-on-long
workflow, resulting in slow convergence and difficulty in acceleration. To
overcome these limitations, we introduce dense-sparse switchable attention
framework, termed as InfLLM-V2. InfLLM-V2 is a trainable sparse attention that
seamlessly adapts models from short to long sequences. Specifically, InfLLM-V2
reuses dense attention parameters through parameter-free architecture
modification, maintaining consistency between short and long sequence
processing. Additionally, InfLLM-V2 ensures computational efficiency across all
sequence lengths, by using dense attention for short inputs and smoothly
transitioning to sparse attention for long sequences. To achieve practical
acceleration, we further introduce an efficient implementation of InfLLM-V2
that significantly reduces the computational overhead. Our experiments on
long-context understanding and chain-of-thought reasoning demonstrate that
InfLLM-V2 is 4times faster than dense attention while retaining 98.1% and
99.7% of the performance, respectively. Based on the InfLLM-V2 framework, we
have trained and open-sourced MiniCPM4.1
(https://huggingface.co/openbmb/MiniCPM4.1-8B), a hybrid reasoning model,
providing a reproducible implementation for the research community.