InfLLM-V2: Atención Conmutable Densamente Dispersa para una Adaptación Sin Interrupciones de Corto a Largo Plazo
InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation
September 29, 2025
Autores: Weilin Zhao, Zihan Zhou, Zhou Su, Chaojun Xiao, Yuxuan Li, Yanghao Li, Yudi Zhang, Weilun Zhao, Zhen Li, Yuxiang Huang, Ao Sun, Xu Han, Zhiyuan Liu
cs.AI
Resumen
El procesamiento de secuencias largas es una capacidad crítica para los modelos de lenguaje modernos de gran escala. Sin embargo, el mecanismo de autoatención en la arquitectura estándar del Transformer enfrenta severos cuellos de botella computacionales y de memoria al procesar secuencias largas. Aunque los métodos de atención dispersa entrenables ofrecen una solución prometedora, enfoques existentes como NSA introducen parámetros adicionales excesivos y alteran el flujo de trabajo convencional de preentrenamiento en secuencias cortas y ajuste fino en secuencias largas, lo que resulta en una convergencia lenta y dificultad para acelerar. Para superar estas limitaciones, presentamos un marco de atención conmutable densa-dispersa, denominado InfLLM-V2. InfLLM-V2 es una atención dispersa entrenable que adapta de manera fluida los modelos de secuencias cortas a largas. Específicamente, InfLLM-V2 reutiliza los parámetros de atención densa mediante una modificación arquitectónica sin parámetros, manteniendo la coherencia entre el procesamiento de secuencias cortas y largas. Además, InfLLM-V2 garantiza eficiencia computacional en todas las longitudes de secuencia, utilizando atención densa para entradas cortas y transicionando suavemente a atención dispersa para secuencias largas. Para lograr una aceleración práctica, introducimos una implementación eficiente de InfLLM-V2 que reduce significativamente la sobrecarga computacional. Nuestros experimentos en comprensión de contexto largo y razonamiento en cadena demuestran que InfLLM-V2 es 4 veces más rápido que la atención densa mientras retiene el 98.1% y el 99.7% del rendimiento, respectivamente. Basado en el marco de InfLLM-V2, hemos entrenado y liberado públicamente MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), un modelo de razonamiento híbrido, proporcionando una implementación reproducible para la comunidad de investigación.
English
Long-sequence processing is a critical capability for modern large language
models. However, the self-attention mechanism in the standard Transformer
architecture faces severe computational and memory bottlenecks when processing
long sequences. While trainable sparse attention methods offer a promising
solution, existing approaches such as NSA introduce excessive extra parameters
and disrupt the conventional pretrain-on-short, finetune-on-long
workflow, resulting in slow convergence and difficulty in acceleration. To
overcome these limitations, we introduce dense-sparse switchable attention
framework, termed as InfLLM-V2. InfLLM-V2 is a trainable sparse attention that
seamlessly adapts models from short to long sequences. Specifically, InfLLM-V2
reuses dense attention parameters through parameter-free architecture
modification, maintaining consistency between short and long sequence
processing. Additionally, InfLLM-V2 ensures computational efficiency across all
sequence lengths, by using dense attention for short inputs and smoothly
transitioning to sparse attention for long sequences. To achieve practical
acceleration, we further introduce an efficient implementation of InfLLM-V2
that significantly reduces the computational overhead. Our experiments on
long-context understanding and chain-of-thought reasoning demonstrate that
InfLLM-V2 is 4times faster than dense attention while retaining 98.1% and
99.7% of the performance, respectively. Based on the InfLLM-V2 framework, we
have trained and open-sourced MiniCPM4.1
(https://huggingface.co/openbmb/MiniCPM4.1-8B), a hybrid reasoning model,
providing a reproducible implementation for the research community.