Q-ARVD: Квантование авторегрессионных моделей диффузии видео

Аннотация

Авторегрессионные видеодиффузионные модели (ARVD) зарекомендовали себя как перспективная архитектура для генерации потокового видео, открывая путь к интерактивной генерации видео в реальном времени и моделированию мирового окружения. Несмотря на свой потенциал, значительные затраты на логический вывод в ARVD остаются серьезным препятствием для практического развертывания, что делает квантизацию моделей естественным направлением для повышения эффективности. Однако квантизация для ARVD остается в значительной степени неизученной. Наш эмпирический анализ показывает, что прямое применение существующих схем квантизации, разработанных для стандартных диффузионных трансформеров, к ARVD приводит к неоптимальным результатам, выявляя особенности поведения при квантизации, отличающиеся от наблюдаемых в двунаправленных диффузионных моделях. В данной работе мы определяем две критические проблемы при квантизации ARVD: (C1) Сильно несбалансированная покадровая чувствительность к квантизации. Накопление ошибок в процессе авторегрессионной генерации может вызывать резко асимметричную чувствительность к квантизации между кадрами, демонстрируя экспоненциально убывающую закономерность. (C2) Ярко выраженные и разнородные выбросы в весах. Распределения весов содержат заметные каналы-выбросы, характер которых существенно варьируется в зависимости от типов слоев и глубины блоков. Для решения этих проблем мы предлагаем Q-ARVD — новую структуру для точной квантизации ARVD. (S1) Для преодоления сильно несбалансированной покадровой чувствительности Q-ARVD включает в целевую функцию квантизации механизм взвешивания кадров с учетом конечного качества. (S2) Для предотвращения снижения производительности из-за разнородных выбросов Q-ARVD вводит адаптивную двухмасштабную квантизацию, учитывающую выбросы, которая автоматически обнаруживает наличие и количество каналов-выбросов для произвольного слоя и изолирует их для защиты нормальных каналов. Обширные эксперименты демонстрируют превосходство Q-ARVD.

English

Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.