Estudio Empírico sobre la Cuantización de Modelos del Mundo

Resumen

Los modelos del mundo aprenden una representación interna de la dinámica del entorno, permitiendo a los agentes simular y razonar sobre estados futuros dentro de un espacio latente compacto para tareas como planificación, predicción e inferencia. Sin embargo, la ejecución de modelos del mundo depende de un alto coste computacional y una gran huella de memoria, haciendo que la cuantificación del modelo sea esencial para un despliegue eficiente. Hasta la fecha, los efectos de la cuantificación post-entrenamiento (PTQ) en los modelos del mundo permanecen en gran medida sin examinar. En este trabajo, presentamos un estudio empírico sistemático de la cuantificación de modelos del mundo utilizando DINO-WM como caso representativo, evaluando diversos métodos de PTQ bajo configuraciones de solo-pesos y de pesos y activaciones conjuntas. Realizamos experimentos exhaustivos en diferentes tareas de planificación visual a lo largo de un amplio rango de anchos de bits, granularidades de cuantificación y horizontes de planificación de hasta 50 iteraciones. Nuestros resultados muestran que los efectos de la cuantificación en los modelos del mundo van más allá de las compensaciones estándar entre precisión y ancho de bits: la cuantificación de pesos por grupos puede estabilizar las simulaciones de bajo bit, la granularidad de la cuantificación de activaciones ofrece beneficios inconsistentes, y la sensibilidad a la cuantificación es altamente asimétrica entre los módulos del codificador y el predictor. Además, una cuantificación agresiva de bajo bit degrada significativamente la alineación entre el objetivo de planificación y el éxito de la tarea, conduciendo a fallos que no pueden remediarse con optimización adicional. Estos hallazgos revelan modos de fallo distintos inducidos por la cuantificación en la planificación basada en modelos del mundo y proporcionan una guía práctica para desplegar modelos del mundo cuantificados bajo estrictas restricciones computacionales. El código estará disponible en https://github.com/huawei-noah/noah-research/tree/master/QuantWM.

English

World models learn an internal representation of environment dynamics, enabling agents to simulate and reason about future states within a compact latent space for tasks such as planning, prediction, and inference. However, running world models rely on hevay computational cost and memory footprint, making model quantization essential for efficient deployment. To date, the effects of post-training quantization (PTQ) on world models remain largely unexamined. In this work, we present a systematic empirical study of world model quantization using DINO-WM as a representative case, evaluating diverse PTQ methods under both weight-only and joint weight-activation settings. We conduct extensive experiments on different visual planning tasks across a wide range of bit-widths, quantization granularities, and planning horizons up to 50 iterations. Our results show that quantization effects in world models extend beyond standard accuracy and bit-width trade-offs: group-wise weight quantization can stabilize low-bit rollouts, activation quantization granularity yields inconsistent benefits, and quantization sensitivity is highly asymmetric between encoder and predictor modules. Moreover, aggressive low-bit quantization significantly degrades the alignment between the planning objective and task success, leading to failures that cannot be remedied by additional optimization. These findings reveal distinct quantization-induced failure modes in world model-based planning and provide practical guidance for deploying quantized world models under strict computational constraints. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/QuantWM.