Een Empirische Studie naar Kwantisatie van Wereldmodellen

Samenvatting

Wereldmodellen leren een interne representatie van omgevingsdynamiek, waardoor agents toekomstige toestanden kunnen simuleren en redeneren binnen een compacte latente ruimte voor taken zoals planning, voorspelling en inferentie. Het uitvoeren van wereldmodellen vereist echter zware rekenkosten en een groot geheugenverbruik, waardoor modelkwantisatie essentieel is voor efficiënte implementatie. Tot op heden zijn de effecten van post-training kwantisatie (PTQ) op wereldmodellen grotendeels ononderzocht. In dit werk presenteren we een systematische empirische studie van wereldmodelkwantisatie met DINO-WM als representatief geval, waarbij we diverse PTQ-methoden evalueren in zowel gewichts- als gezamenlijke gewichts-activeringsconfiguraties. We voeren uitgebreide experimenten uit met verschillende visuele plannings taken over een breed scala aan bit-breedtes, kwantisatiegranulariteiten en planningshorizons tot 50 iteraties. Onze resultaten tonen aan dat kwantisatie-effecten in wereldmodellen verder reiken dan de standaard nauwkeurigheid-bit-breedte afwegingen: groepsgewijze gewichtskwantisatie kan low-bit rollouts stabiliseren, activeringskwantisatiegranulariteit levert inconsistente voordelen op, en kwantisatiegevoeligheid is sterk asymmetrisch tussen encoder- en voorspellermodules. Bovendien leidt agressieve low-bit kwantisatie tot een significante verslechtering van de afstemming tussen het planningsdoel en taaksucces, wat resulteert in fouten die niet kunnen worden verholpen door aanvullende optimalisatie. Deze bevindingen onthullen distinctieve door kwantisatie geïnduceerde faalmodi in op wereldmodellen gebaseerde planning en bieden praktische richtlijnen voor het implementeren van gekwantiseerde wereldmodellen onder strikte rekenbeperkingen. De code zal beschikbaar zijn op https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

English

World models learn an internal representation of environment dynamics, enabling agents to simulate and reason about future states within a compact latent space for tasks such as planning, prediction, and inference. However, running world models rely on hevay computational cost and memory footprint, making model quantization essential for efficient deployment. To date, the effects of post-training quantization (PTQ) on world models remain largely unexamined. In this work, we present a systematic empirical study of world model quantization using DINO-WM as a representative case, evaluating diverse PTQ methods under both weight-only and joint weight-activation settings. We conduct extensive experiments on different visual planning tasks across a wide range of bit-widths, quantization granularities, and planning horizons up to 50 iterations. Our results show that quantization effects in world models extend beyond standard accuracy and bit-width trade-offs: group-wise weight quantization can stabilize low-bit rollouts, activation quantization granularity yields inconsistent benefits, and quantization sensitivity is highly asymmetric between encoder and predictor modules. Moreover, aggressive low-bit quantization significantly degrades the alignment between the planning objective and task success, leading to failures that cannot be remedied by additional optimization. These findings reveal distinct quantization-induced failure modes in world model-based planning and provide practical guidance for deploying quantized world models under strict computational constraints. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

Een Empirische Studie naar Kwantisatie van Wereldmodellen

An Empirical Study of World Model Quantization

Samenvatting

Support