Um Estudo Empírico sobre a Quantização de Modelos de Mundo

Resumo

Os modelos de mundo aprendem uma representação interna da dinâmica do ambiente, permitindo que os agentes simulem e raciocinem sobre estados futuros dentro de um espaço latente compacto para tarefas como planejamento, previsão e inferência. No entanto, a execução de modelos de mundo depende de um custo computacional e consumo de memória elevados, tornando a quantização do modelo essencial para uma implantação eficiente. Até o momento, os efeitos da quantização pós-treinamento (PTQ) em modelos de mundo permanecem amplamente não examinados. Neste trabalho, apresentamos um estudo empírico sistemático da quantização de modelos de mundo usando o DINO-WM como caso representativo, avaliando diversos métodos de PTQ em configurações de apenas pesos e de pesos-ativação conjuntos. Realizamos extensivos experimentos em diferentes tarefas de planejamento visual em uma ampla gama de bit-widths, granularidades de quantização e horizontes de planejamento de até 50 iterações. Nossos resultados mostram que os efeitos da quantização em modelos de mundo vão além dos trade-offs padrão de precisão e bit-width: a quantização de pesos por grupo pode estabilizar rollouts de baixo bit, a granularidade da quantização de ativação produz benefícios inconsistentes, e a sensibilidade à quantização é altamente assimétrica entre os módulos do codificador e do preditor. Além disso, a quantização agressiva de baixo bit degrada significativamente o alinhamento entre o objetivo de planejamento e o sucesso da tarefa, levando a falhas que não podem ser remediadas por otimização adicional. Essas descobertas revelam modos de falha distintos induzidos por quantização no planejamento baseado em modelos de mundo e fornecem orientação prática para implantar modelos de mundo quantizados sob restrições computacionais rigorosas. O código estará disponível em https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

English

World models learn an internal representation of environment dynamics, enabling agents to simulate and reason about future states within a compact latent space for tasks such as planning, prediction, and inference. However, running world models rely on hevay computational cost and memory footprint, making model quantization essential for efficient deployment. To date, the effects of post-training quantization (PTQ) on world models remain largely unexamined. In this work, we present a systematic empirical study of world model quantization using DINO-WM as a representative case, evaluating diverse PTQ methods under both weight-only and joint weight-activation settings. We conduct extensive experiments on different visual planning tasks across a wide range of bit-widths, quantization granularities, and planning horizons up to 50 iterations. Our results show that quantization effects in world models extend beyond standard accuracy and bit-width trade-offs: group-wise weight quantization can stabilize low-bit rollouts, activation quantization granularity yields inconsistent benefits, and quantization sensitivity is highly asymmetric between encoder and predictor modules. Moreover, aggressive low-bit quantization significantly degrades the alignment between the planning objective and task success, leading to failures that cannot be remedied by additional optimization. These findings reveal distinct quantization-induced failure modes in world model-based planning and provide practical guidance for deploying quantized world models under strict computational constraints. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

Um Estudo Empírico sobre a Quantização de Modelos de Mundo

An Empirical Study of World Model Quantization

Resumo

Support