ChatPaper.aiChatPaper

COSPADI: Compresión de Modelos de Lenguaje Grandes mediante Aprendizaje de Diccionarios Dispersos Guiado por Calibración

COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning

September 26, 2025
Autores: Dmitriy Shopkhoev, Denis Makhov, Magauiya Zhussip, Ammar Ali, Stamatios Lefkimmiatis
cs.AI

Resumen

La compresión posentrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) se basa en gran medida en la aproximación de pesos de bajo rango, la cual representa cada columna de una matriz de pesos en un subespacio compartido de baja dimensión. Si bien esta es una estrategia computacionalmente eficiente, la restricción estructural impuesta es rígida y puede provocar una caída notable en la precisión del modelo. En este trabajo, proponemos CoSpaDi (Compresión mediante Aprendizaje de Diccionarios Dispersos), un novedoso marco de compresión sin entrenamiento que reemplaza la descomposición de bajo rango con una factorización estructurada dispersa más flexible, en la que cada matriz de pesos se representa con un diccionario denso y una matriz de coeficientes dispersa por columnas. Esta formulación permite una representación de unión de subespacios: diferentes columnas de la matriz de pesos original se aproximan en subespacios distintos generados por átomos de diccionario seleccionados de manera adaptativa, ofreciendo una mayor expresividad que una base invariante única. De manera crucial, CoSpaDi aprovecha un pequeño conjunto de datos de calibración para optimizar la factorización de modo que las activaciones de salida de las capas de proyección comprimidas coincidan estrechamente con las de las originales, minimizando así el error de reconstrucción funcional en lugar de la mera aproximación de pesos. Esta estrategia consciente de los datos preserva una mejor fidelidad del modelo sin necesidad de ajuste fino bajo razonables ratios de compresión. Además, la dispersión estructurada resultante permite una multiplicación eficiente de matrices dispersas-densas y es compatible con la cuantización posentrenamiento para obtener mayores ganancias en memoria y latencia. Evaluamos CoSpaDi en múltiples modelos Llama y Qwen bajo configuraciones por capa y por grupo con ratios de compresión del 20-50\%, demostrando una superioridad consistente sobre los métodos de bajo rango conscientes de los datos más avanzados tanto en precisión como en perplejidad. Nuestros resultados establecen el aprendizaje de diccionarios dispersos estructurados como una alternativa poderosa a los enfoques convencionales de bajo rango para el despliegue eficiente de LLM.
English
Post-training compression of large language models (LLMs) largely relies on low-rank weight approximation, which represents each column of a weight matrix in a shared low-dimensional subspace. While this is a computationally efficient strategy, the imposed structural constraint is rigid and can lead to a noticeable model accuracy drop. In this work, we propose CoSpaDi (Compression via Sparse Dictionary Learning), a novel training-free compression framework that replaces low-rank decomposition with a more flexible structured sparse factorization in which each weight matrix is represented with a dense dictionary and a column-sparse coefficient matrix. This formulation enables a union-of-subspaces representation: different columns of the original weight matrix are approximated in distinct subspaces spanned by adaptively selected dictionary atoms, offering greater expressiveness than a single invariant basis. Crucially, CoSpaDi leverages a small calibration dataset to optimize the factorization such that the output activations of compressed projection layers closely match those of the original ones, thereby minimizing functional reconstruction error rather than mere weight approximation. This data-aware strategy preserves better model fidelity without any fine-tuning under reasonable compression ratios. Moreover, the resulting structured sparsity allows efficient sparse-dense matrix multiplication and is compatible with post-training quantization for further memory and latency gains. We evaluate CoSpaDi across multiple Llama and Qwen models under per-layer and per-group settings at 20-50\% compression ratios, demonstrating consistent superiority over state-of-the-art data-aware low-rank methods both in accuracy and perplexity. Our results establish structured sparse dictionary learning as a powerful alternative to conventional low-rank approaches for efficient LLM deployment.
PDF202September 29, 2025