Eine empirische Untersuchung zur Quantisierung von Weltmodellen

Zusammenfassung

Weltmodelle erlernen eine interne Repräsentation der Umgebungsdynamik, die es Agenten ermöglicht, zukünftige Zustände innerhalb eines kompakten latenten Raums für Aufgaben wie Planung, Vorhersage und Inferenz zu simulieren und darüber zu schlussfolgern. Der Betrieb von Weltmodellen ist jedoch mit hohen Rechenkosten und Speicherbedarf verbunden, was Modellquantisierung für einen effizienten Einsatz unerlässlich macht. Bislang sind die Auswirkungen der Post-Training-Quantisierung (PTQ) auf Weltmodelle weitgehend unerforscht. In dieser Arbeit präsentieren wir eine systematische empirische Untersuchung der Quantisierung von Weltmodellen am repräsentativen Fallbeispiel DINO-WM, bei der wir verschiedene PTQ-Methoden sowohl unter reinen Gewichts- als auch unter gemeinsamen Gewichts-Aktivierungs-Einstellungen evaluieren. Wir führen umfangreiche Experimente zu verschiedenen visuellen Planungsaufgaben über eine breite Spanne von Bit-Breiten, Quantisierungsgranularitäten und Planungshorizonten von bis zu 50 Iterationen durch. Unsere Ergebnisse zeigen, dass sich Quantisierungseffekte in Weltmodellen über reine Genauigkeits- und Bit-Breiten-Kompromisse hinaus erstrecken: gruppenweise Gewichtsquantisierung kann Rollouts mit niedriger Bit-Breite stabilisieren, die Granularität der Aktivierungsquantisierung bringt uneinheitliche Vorteile, und die Quantisierungsempfindlichkeit ist zwischen Encoder- und Prädiktor-Modulen hochgradig asymmetrisch. Darüber hinaus verschlechtert aggressive Quantisierung mit niedriger Bit-Breite die Ausrichtung zwischen dem Planungsziel und dem Aufgaben-erfolg erheblich, was zu Fehlschlägen führt, die durch zusätzliche Optimierung nicht behoben werden können. Diese Erkenntnisse offenbaren distincte, quantisierungsinduzierte Fehlermodi in der weltmodellbasierten Planung und liefern praktische Leitlinien für den Einsatz quantisierter Weltmodelle unter strengen Rechenbeschränkungen. Der Code wird unter https://github.com/huawei-noah/noah-research/tree/master/QuantWM verfügbar sein.

English

World models learn an internal representation of environment dynamics, enabling agents to simulate and reason about future states within a compact latent space for tasks such as planning, prediction, and inference. However, running world models rely on hevay computational cost and memory footprint, making model quantization essential for efficient deployment. To date, the effects of post-training quantization (PTQ) on world models remain largely unexamined. In this work, we present a systematic empirical study of world model quantization using DINO-WM as a representative case, evaluating diverse PTQ methods under both weight-only and joint weight-activation settings. We conduct extensive experiments on different visual planning tasks across a wide range of bit-widths, quantization granularities, and planning horizons up to 50 iterations. Our results show that quantization effects in world models extend beyond standard accuracy and bit-width trade-offs: group-wise weight quantization can stabilize low-bit rollouts, activation quantization granularity yields inconsistent benefits, and quantization sensitivity is highly asymmetric between encoder and predictor modules. Moreover, aggressive low-bit quantization significantly degrades the alignment between the planning objective and task success, leading to failures that cannot be remedied by additional optimization. These findings reveal distinct quantization-induced failure modes in world model-based planning and provide practical guidance for deploying quantized world models under strict computational constraints. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

Eine empirische Untersuchung zur Quantisierung von Weltmodellen

An Empirical Study of World Model Quantization

Zusammenfassung

Support