minWM: Un marco de trabajo de pila completa y código abierto para modelos de mundo de video interactivos en tiempo real.
minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
May 28, 2026
Autores: Min Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu
cs.AI
Resumen
Recientes modelos fundamentales de difusión de video han logrado avances notables en la generación de video de alta calidad, sin embargo, convertirlos en modelos de mundo interactivos de video en tiempo real sigue siendo un desafío. Los modelos de mundo interactivos requieren despliegues controlables, causales y de baja latencia, lo que en la práctica demanda un flujo completo que abarca construcción de datos, ajuste fino controlable, entrenamiento autorregresivo, destilación en pocos pasos e inferencia en streaming. En este trabajo presentamos minWM, un marco de código abierto integral para construir modelos de mundo interactivos de video en tiempo real. minWM proporciona un flujo de trabajo de extremo a extremo que convierte modelos fundamentales de video T2V/TI2V bidireccionales existentes en modelos de mundo autorregresivos controlables por cámara y de pocos pasos. Específicamente, minWM primero ajusta finamente un modelo de difusión de video bidireccional con control de cámara, y luego aplica el flujo de Forzamiento Causal / Forzamiento Causal++, que incluye entrenamiento de difusión AR, ODE causal o destilación de consistencia causal, y DMD asimétrica, para destilarlo en un generador autorregresivo de pocos pasos para despliegue de baja latencia. El marco es modular y extensible en arquitectura: lo instanciamos en backbones abiertos representativos, incluyendo Wan2.1-T2V-1.3B y HY1.5-TI2V-8B, cubriendo tanto la inyección de condiciones basada en atención cruzada como arquitecturas de estilo MMDiT. minWM también soporta la adaptación de modelos de mundo de video existentes, como HY-WorldPlay, a nuevas distribuciones de datos, recetas de entrenamiento y objetivos de latencia. Además de publicar scripts ejecutables, puntos de control, documentación y código de inferencia, proporcionamos ablaciones prácticas sobre la calidad de las trayectorias de cámara, pasos de entrenamiento de controlabilidad y requisitos mínimos de tamaño de lote. Esperamos que minWM sirva como una receta reproducible y extensible para construir y adaptar modelos de mundo interactivos de video en tiempo real.
Página del Proyecto: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
English
Recent video diffusion foundation models have achieved remarkable progress in high-quality video generation, yet turning them into real-time interactive video world models remains challenging. Interactive world models require controllable, causal, and low-latency rollout, which in practice demands a full pipeline spanning data construction, controllable fine-tuning, autoregressive training, few-step distillation, and streaming inference. In this work, we present minWM, a full-stack open-source framework for building real-time interactive video world models. minWM provides an end-to-end pipeline that converts existing bidirectional T2V/TI2V video foundation models into camera-controllable few-step autoregressive world models. Specifically, minWM first fine-tunes a bidirectional video diffusion model with camera control, and then applies the Causal Forcing / Causal Forcing++ pipeline, including AR diffusion training, causal ODE or causal consistency distillation, and asymmetric DMD, to distill it into a few-step autoregressive generator for low-latency rollout. The framework is modular and architecture-extensible: we instantiate it on representative open backbones, including Wan2.1-T2V-1.3B and HY1.5-TI2V-8B, covering both cross-attention-based condition injection and MMDiT-style architectures. minWM also supports adapting existing video world models, such as HY-WorldPlay, to new data distributions, training recipes, and latency targets. Beyond releasing runnable scripts, checkpoints, documentation, and inference code, we provide practical ablations on camera trajectory quality, controllability training steps, and minimal batch-size requirements. We hope minWM serves as a reproducible and extensible recipe for building and adapting real-time interactive video world models.
Project Page: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)