COSPADI: Compresión de Modelos de Lenguaje Grandes mediante Aprendizaje de Diccionarios Dispersos Guiado por Calibración
COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning
September 26, 2025
Autores: Dmitriy Shopkhoev, Denis Makhov, Magauiya Zhussip, Ammar Ali, Stamatios Lefkimmiatis
cs.AI
Resumen
La compresión posentrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) se basa en gran medida en la aproximación de pesos de bajo rango, la cual representa cada columna de una matriz de pesos en un subespacio compartido de baja dimensión. Si bien esta es una estrategia computacionalmente eficiente, la restricción estructural impuesta es rígida y puede provocar una caída notable en la precisión del modelo. En este trabajo, proponemos CoSpaDi (Compresión mediante Aprendizaje de Diccionarios Dispersos), un novedoso marco de compresión sin entrenamiento que reemplaza la descomposición de bajo rango con una factorización estructurada dispersa más flexible, en la que cada matriz de pesos se representa con un diccionario denso y una matriz de coeficientes dispersa por columnas. Esta formulación permite una representación de unión de subespacios: diferentes columnas de la matriz de pesos original se aproximan en subespacios distintos generados por átomos de diccionario seleccionados de manera adaptativa, ofreciendo una mayor expresividad que una base invariante única. De manera crucial, CoSpaDi aprovecha un pequeño conjunto de datos de calibración para optimizar la factorización de modo que las activaciones de salida de las capas de proyección comprimidas coincidan estrechamente con las de las originales, minimizando así el error de reconstrucción funcional en lugar de la mera aproximación de pesos. Esta estrategia consciente de los datos preserva una mejor fidelidad del modelo sin necesidad de ajuste fino bajo razonables ratios de compresión. Además, la dispersión estructurada resultante permite una multiplicación eficiente de matrices dispersas-densas y es compatible con la cuantización posentrenamiento para obtener mayores ganancias en memoria y latencia. Evaluamos CoSpaDi en múltiples modelos Llama y Qwen bajo configuraciones por capa y por grupo con ratios de compresión del 20-50\%, demostrando una superioridad consistente sobre los métodos de bajo rango conscientes de los datos más avanzados tanto en precisión como en perplejidad. Nuestros resultados establecen el aprendizaje de diccionarios dispersos estructurados como una alternativa poderosa a los enfoques convencionales de bajo rango para el despliegue eficiente de LLM.
English
Post-training compression of large language models (LLMs) largely relies on
low-rank weight approximation, which represents each column of a weight matrix
in a shared low-dimensional subspace. While this is a computationally efficient
strategy, the imposed structural constraint is rigid and can lead to a
noticeable model accuracy drop. In this work, we propose CoSpaDi (Compression
via Sparse Dictionary Learning), a novel training-free compression framework
that replaces low-rank decomposition with a more flexible structured sparse
factorization in which each weight matrix is represented with a dense
dictionary and a column-sparse coefficient matrix. This formulation enables a
union-of-subspaces representation: different columns of the original weight
matrix are approximated in distinct subspaces spanned by adaptively selected
dictionary atoms, offering greater expressiveness than a single invariant
basis. Crucially, CoSpaDi leverages a small calibration dataset to optimize the
factorization such that the output activations of compressed projection layers
closely match those of the original ones, thereby minimizing functional
reconstruction error rather than mere weight approximation. This data-aware
strategy preserves better model fidelity without any fine-tuning under
reasonable compression ratios. Moreover, the resulting structured sparsity
allows efficient sparse-dense matrix multiplication and is compatible with
post-training quantization for further memory and latency gains. We evaluate
CoSpaDi across multiple Llama and Qwen models under per-layer and per-group
settings at 20-50\% compression ratios, demonstrating consistent superiority
over state-of-the-art data-aware low-rank methods both in accuracy and
perplexity. Our results establish structured sparse dictionary learning as a
powerful alternative to conventional low-rank approaches for efficient LLM
deployment.