Uno Studio Empirico sulla Quantizzazione dei Modelli del Mondo

Abstract

I modelli world apprendono una rappresentazione interna delle dinamiche ambientali, consentendo agli agenti di simulare e ragionare sugli stati futuri all'interno di uno spazio latente compatto per compiti come pianificazione, previsione e inferenza. Tuttavia, l'esecuzione dei modelli world richiede un elevato costo computazionale e un'ampia impronta di memoria, rendendo la quantizzazione del modello essenziale per una distribuzione efficiente. Ad oggi, gli effetti della quantizzazione post-addestramento (PTQ) sui modelli world rimangono in gran parte non esaminati. In questo lavoro, presentiamo uno studio empirico sistematico sulla quantizzazione dei modelli world utilizzando DINO-WM come caso rappresentativo, valutando diversi metodi PTQ in configurazioni di sola quantizzazione dei pesi e di pesi-attivazioni congiunta. Conduciamo esperimenti estesi su diversi compiti di pianificazione visiva su un'ampia gamma di bit-width, granularità di quantizzazione e orizzonti di pianificazione fino a 50 iterazioni. I nostri risultati mostrano che gli effetti della quantizzazione nei modelli world vanno oltre i tradizionali compromessi tra accuratezza e bit-width: la quantizzazione dei pesi per gruppi può stabilizzare i rollout a basso bit, la granularità della quantizzazione delle attivazioni produce benefici inconsistenti e la sensibilità alla quantizzazione è altamente asimmetrica tra i moduli encoder e predictor. Inoltre, una quantizzazione aggressiva a basso bit degrada significativamente l'allineamento tra l'obiettivo di pianificazione e il successo del compito, portando a fallimenti che non possono essere rimediati con ottimizzazioni aggiuntive. Questi risultati rivelano distinti modi di fallimento indotti dalla quantizzazione nella pianificazione basata su modelli world e forniscono indicazioni pratiche per la distribuzione di modelli world quantizzati sotto stringenti vincoli computazionali. Il codice sarà disponibile all'indirizzo https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

English

World models learn an internal representation of environment dynamics, enabling agents to simulate and reason about future states within a compact latent space for tasks such as planning, prediction, and inference. However, running world models rely on hevay computational cost and memory footprint, making model quantization essential for efficient deployment. To date, the effects of post-training quantization (PTQ) on world models remain largely unexamined. In this work, we present a systematic empirical study of world model quantization using DINO-WM as a representative case, evaluating diverse PTQ methods under both weight-only and joint weight-activation settings. We conduct extensive experiments on different visual planning tasks across a wide range of bit-widths, quantization granularities, and planning horizons up to 50 iterations. Our results show that quantization effects in world models extend beyond standard accuracy and bit-width trade-offs: group-wise weight quantization can stabilize low-bit rollouts, activation quantization granularity yields inconsistent benefits, and quantization sensitivity is highly asymmetric between encoder and predictor modules. Moreover, aggressive low-bit quantization significantly degrades the alignment between the planning objective and task success, leading to failures that cannot be remedied by additional optimization. These findings reveal distinct quantization-induced failure modes in world model-based planning and provide practical guidance for deploying quantized world models under strict computational constraints. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

Uno Studio Empirico sulla Quantizzazione dei Modelli del Mondo

An Empirical Study of World Model Quantization

Abstract

Support