NanoQuant: 대규모 언어 모델의 효율적인 1비트 미만 양자화
NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models
February 6, 2026
저자: Hyochan Chong, Dongkyu Kim, Changdong Kim, Minseop Choi
cs.AI
초록
가중치 전용 양자화는 대규모 언어 모델(LLM)을 효율적으로 서빙하기 위한 표준 접근법으로 자리 잡았습니다. 그러나 기존 방법들은 대량의 데이터와 컴퓨팅 자원을 요구하거나 추가 저장 공간을 필요로 하기 때문에 모델을 이진(1비트) 수준으로 효율적으로 압축하지 못합니다. 본 연구에서는 사후 학습 양자화(PTQ) 방식으로 LLM을 이진 및 1비트 미만 수준으로 압축하는 최초의 방법인 NanoQuant를 제안합니다. NanoQuant는 양자화를 낮은 계수를 가진 이진 행렬 분해 문제로 공식화하고, 전체 정밀도 가중치를 낮은 계수의 이진 행렬과 스케일로 압축합니다. 구체적으로, 효율적인 교번 방향 승수법(ADMM)을 활용하여 잠재 이진 행렬과 스케일을 정밀하게 초기화한 후, 블록 및 모델 재구성 과정을 통해 초기화된 매개변수를 미세 조정합니다. 그 결과 NanoQuant는 낮은 메모리 사후 학습 양자화 분야에서 새로운 파레토 최적점을 수립하며, 1비트 미만 압축률에서도 최고 수준의 정확도를 달성합니다. NanoQuant는 소비자용 하드웨어에서 대규모 모델 배포를 가능하게 합니다. 예를 들어, 단일 H100 GPU에서 단 13시간 만에 Llama2-70B 모델을 25.8배 압축하여 70B 규모의 모델을 8GB 용량의 소비자용 GPU에서 구동할 수 있게 합니다.
English
Weight-only quantization has become a standard approach for efficiently serving large language models (LLMs). However, existing methods fail to efficiently compress models to binary (1-bit) levels, as they either require large amounts of data and compute or incur additional storage. In this work, we propose NanoQuant, the first post-training quantization (PTQ) method to compress LLMs to both binary and sub-1-bit levels. NanoQuant formulates quantization as a low-rank binary factorization problem, and compresses full-precision weights to low-rank binary matrices and scales. Specifically, it utilizes an efficient alternating direction method of multipliers (ADMM) method to precisely initialize latent binary matrices and scales, and then tune the initialized parameters through a block and model reconstruction process. Consequently, NanoQuant establishes a new Pareto frontier in low-memory post-training quantization, achieving state-of-the-art accuracy even at sub-1-bit compression rates. NanoQuant makes large-scale deployment feasible on consumer hardware. For example, it compresses Llama2-70B by 25.8times in just 13 hours on a single H100, enabling a 70B model to operate on a consumer 8 GB GPU.