Эмпирическое исследование квантизации моделей мира

Аннотация

Модели мира изучают внутреннее представление динамики окружающей среды, позволяя агентам моделировать и рассуждать о будущих состояниях в компактном латентном пространстве для таких задач, как планирование, прогнозирование и вывод. Однако работа моделей мира сопряжена с высокими вычислительными затратами и объемом памяти, что делает квантование моделей необходимым для эффективного развертывания. На сегодняшний день влияние квантования после обучения (PTQ) на модели мира в значительной степени не изучено. В данной работе мы представляем систематическое эмпирическое исследование квантования моделей мира на примере DINO-WM, оценивая различные методы PTQ в условиях квантования только весов, а также совместного квантования весов и активаций. Мы проводим обширные эксперименты на различных задачах визуального планирования в широком диапазоне битовых ширины̆, гранулярностей квантования и горизонтов планирования до 50 итераций. Наши результаты показывают, что эффекты квантования в моделях мира выходят за рамки стандартных компромиссов между точностью и битовой шириной: групповое квантование весов может стабилизировать развертки при низкой битовой ширине, гранулярность квантования активаций дает неоднозначные преимущества, а чувствительность к квантованию сильно асимметрична между модулями энкодера и предиктора. Более того, агрессивное квантование с низкой битовой шириной значительно ухудшает соответствие между целью планирования и успешностью задачи, приводя к сбоям, которые невозможно исправить с помощью дополнительной оптимизации. Эти результаты выявляют особые режимы сбоев, вызванные квантованием, в планировании на основе моделей мира и предоставляют практические рекомендации по развертыванию квантованных моделей мира в условиях строгих вычислительных ограничений. Код будет доступен по адресу https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

English

World models learn an internal representation of environment dynamics, enabling agents to simulate and reason about future states within a compact latent space for tasks such as planning, prediction, and inference. However, running world models rely on hevay computational cost and memory footprint, making model quantization essential for efficient deployment. To date, the effects of post-training quantization (PTQ) on world models remain largely unexamined. In this work, we present a systematic empirical study of world model quantization using DINO-WM as a representative case, evaluating diverse PTQ methods under both weight-only and joint weight-activation settings. We conduct extensive experiments on different visual planning tasks across a wide range of bit-widths, quantization granularities, and planning horizons up to 50 iterations. Our results show that quantization effects in world models extend beyond standard accuracy and bit-width trade-offs: group-wise weight quantization can stabilize low-bit rollouts, activation quantization granularity yields inconsistent benefits, and quantization sensitivity is highly asymmetric between encoder and predictor modules. Moreover, aggressive low-bit quantization significantly degrades the alignment between the planning objective and task success, leading to failures that cannot be remedied by additional optimization. These findings reveal distinct quantization-induced failure modes in world model-based planning and provide practical guidance for deploying quantized world models under strict computational constraints. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

Эмпирическое исследование квантизации моделей мира

An Empirical Study of World Model Quantization

Аннотация

Support