ROCKET: Optimización Rápida mediante Truncación Mejorada con Mochila Guiada por Calibración para Compresión Eficiente de Modelos

Resumen

Presentamos ROCKET, un método de compresión de modelos sin necesidad de entrenamiento que logra un rendimiento puntero en comparación con métodos base de factorización, esparcidización estructurada y compresión dinámica. Operando bajo un presupuesto global de compresión, ROCKET comprende dos innovaciones clave: En primer lugar, formula la asignación de compresión por capas como un problema de la mochila con múltiples opciones, seleccionando el nivel de compresión óptimo para cada capa con el fin de minimizar el error total de reconstrucción mientras se adhiere a un tamaño de modelo objetivo. En segundo lugar, introduce una factorización de matrices dispersas en un solo paso inspirada en el aprendizaje de diccionarios: utilizando únicamente un pequeño conjunto de calibración, esparcidiza los coeficientes de peso basándose en la sensibilidad activaciones-pesos y luego actualiza el diccionario en forma cerrada mediante mínimos cuadrados, evitando por completo la optimización iterativa, la codificación dispersa o la retropropagación. ROCKET supera consistentemente a los enfoques de compresión existentes en diferentes arquitecturas de modelo con tasas de compresión del 20-50%. Notablemente, retiene más del 90% del rendimiento del modelo original con una compresión del 30% sin ningún ajuste fino. Además, al aplicar una fase ligera de ajuste fino, la recuperación se ve sustancialmente mejorada: por ejemplo, comprimir Qwen3-14B a un modelo de 8B parámetros y recuperarlo con solo 30 millones de tokens produce un rendimiento casi a la par con el Qwen3-8B original. El código de ROCKET se encuentra en github.com/mts-ai/ROCKET/tree/main.

English

We present ROCKET, a training-free model compression method that achieves state-of-the-art performance in comparison with factorization, structured-sparsification and dynamic compression baselines. Operating under a global compression budget, ROCKET comprises two key innovations: First, it formulates layer-wise compression allocation as a multi-choice knapsack problem, selecting the optimal compression level for each layer to minimize total reconstruction error while adhering to a target model size. Second, it introduces a single-step sparse matrix factorization inspired by dictionary learning: using only a small calibration set, it sparsifies weight coefficients based on activation-weights sensitivity and then updates the dictionary in closed form via least squares bypassing iterative optimization, sparse coding, or backpropagation entirely. ROCKET consistently outperforms existing compression approaches across different model architectures at 20-50\% compression rates. Notably, it retains over 90\% of the original model's performance at 30\% compression without any fine-tuning. Moreover, when applying a light fine-tuning phase, recovery is substantially enhanced: for instance, compressing Qwen3-14B to an 8B-parameter model and healing it with just 30 million tokens yields performance nearly on par with the original Qwen3-8B. The code for ROCKET is at github.com/mts-ai/ROCKET/tree/main.

ROCKET: Optimización Rápida mediante Truncación Mejorada con Mochila Guiada por Calibración para Compresión Eficiente de Modelos

ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression

Resumen

Support