NeuZip: Обучение и вывод с динамической компрессией нейронных сетей для эффективного использования памяти
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks
October 28, 2024
Авторы: Yongchang Hao, Yanshuai Cao, Lili Mou
cs.AI
Аннотация
Производительность нейронных сетей улучшается при использовании большего количества параметров. Однако размеры моделей ограничены доступной памятью на устройстве во время обучения и вывода результатов. Хотя применение техник, таких как квантование, может смягчить это ограничение, они страдают от снижения производительности. В данной работе мы представляем NeuZip, новую схему сжатия весов, основанную на энтропии чисел с плавающей запятой в нейронных сетях. С помощью NeuZip мы можем добиться эффективного использования памяти при обучении и выводе результатов без ущерба производительности. Значительно уменьшаем объем памяти, необходимый для обучения модели Llama-3 8B с 31 ГБ до менее 16 ГБ, при этом полностью сохраняя динамику обучения. В выводе наш метод может уменьшить использование памяти более чем вдвое, сохраняя при этом почти без потерь производительность. Наш код доступен публично.
English
The performance of neural networks improves when more parameters are used.
However, the model sizes are constrained by the available on-device memory
during training and inference. Although applying techniques like quantization
can alleviate the constraint, they suffer from performance degradation. In this
work, we introduce NeuZip, a new weight compression scheme based on the entropy
of floating-point numbers in neural networks. With NeuZip, we are able to
achieve memory-efficient training and inference without sacrificing
performance. Notably, we significantly reduce the memory footprint of training
a Llama-3 8B model from 31GB to less than 16GB, while keeping the training
dynamics fully unchanged. In inference, our method can reduce memory usage by
more than half while maintaining near-lossless performance. Our code is
publicly available.Summary
AI-Generated Summary