6Bit-Diffusion: Смешанная квантизация точности на этапе вывода для видео-диффузионных моделей

Аннотация

Трансформеры диффузии продемонстрировали выдающиеся способности в генерации видео. Однако их практическое применение серьезно ограничивается высоким потреблением памяти и вычислительными затратами. Квантование после обучения предоставляет практический способ снизить использование памяти и повысить скорость вычислений. Существующие методы квантования обычно применяют статическое распределение битовой ширины, игнорируя сложность квантования активаций на различных временных шагах диффузии, что приводит к неоптимальному компромиссу между эффективностью и качеством. В данной статье мы предлагаем фреймворк смешанного квантования точности NVFP4/INT8 во время вывода. Мы обнаружили сильную линейную корреляцию между разностью вход-выход блока и чувствительностью к квантованию его внутренних линейных слоев. На основе этого наблюдения мы разработали легковесный предиктор, который динамически распределяет NVFP4 для временно стабильных слоев, чтобы максимизировать сжатие памяти, и выборочно сохраняет INT8 для изменчивых слоев, чтобы обеспечить устойчивость. Эта адаптивная стратегия точности позволяет применять агрессивное квантование без ущерба для качества генерации. Кроме того, мы наблюдаем, что разность между входом и выходом блока трансформера демонстрирует высокую временную согласованность на протяжении временных шагов. Используя эту временную избыточность, мы вводим Temporal Delta Cache (TDC) для пропуска вычислений в этих инвариантных блоках, дополнительно снижая вычислительные затраты. Многочисленные эксперименты показывают, что наш метод обеспечивает ускорение в 1.92 раза в конце-конечном счете и сокращение памяти в 3.32 раза, устанавливая новый базовый уровень для эффективного вывода в Video DiTs.

English

Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92times end-to-end acceleration and 3.32times memory reduction, setting a new baseline for efficient inference in Video DiTs.

6Bit-Diffusion: Смешанная квантизация точности на этапе вывода для видео-диффузионных моделей

6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

Аннотация

Support