ChatPaper.aiChatPaper

minWM: Ein Full-Stack-Open-Source-Framework für echtzeit-interaktive Video-Weltmodelle

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

May 28, 2026
Autoren: Min Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu
cs.AI

Zusammenfassung

Jüngste Video-Diffusions-Grundlagenmodelle haben bemerkenswerte Fortschritte bei der qualitativ hochwertigen Videogenerierung erzielt, doch ihre Umwandlung in echtzeitfähige, interaktive Video-Weltmodelle bleibt eine Herausforderung. Interaktive Weltmodelle erfordern steuerbare, kausale und latenzarme Rollouts, was in der Praxis eine vollständige Pipeline von der Datenkonstruktion über steuerbares Feintuning, autoregressives Training, Wenig-Schritt-Destillation bis hin zur Streaming-Inferenz verlangt. In dieser Arbeit stellen wir minWM vor, ein Full-Stack-Open-Source-Framework zur Erstellung echtzeitfähiger interaktiver Video-Weltmodelle. minWM bietet eine End-to-End-Pipeline, die bestehende bidirektionale T2V/TI2V-Video-Grundlagenmodelle in kamerasteuerbare, wenige-Schritt-autoregressive Weltmodelle überführt. Konkret wird zunächst ein bidirektionales Video-Diffusionsmodell mit Kamerasteuerung feingetunt, anschließend wird die Causal-Forcing-/Causal-Forcing++-Pipeline angewendet, die AR-Diffusionstraining, kausale ODE- oder kausale Konsistenzdestillation und asymmetrisches DMD umfasst, um es in einen wenige-Schritt-autoregressiven Generator für latenzarme Rollouts zu destillieren. Das Framework ist modular und architektonisch erweiterbar: Wir instanziieren es auf repräsentativen offenen Backbones, darunter Wan2.1-T2V-1.3B und HY1.5-TI2V-8B, und decken sowohl auf Kreuzattentions basierende Bedingungsinjektion als auch MMDiT-artige Architekturen ab. minWM unterstützt zudem die Anpassung bestehender Video-Weltmodelle wie HY-WorldPlay an neue Datenverteilungen, Trainingsrezepte und Latenzanforderungen. Über die Veröffentlichung ausführbarer Skripte, Checkpoints, Dokumentation und Inferenzcode hinaus liefern wir praktische Ablationen zur Qualität von Kameratrajektorien, zur Anzahl der Steuerbarkeitstrainingsschritte und zu den Mindestanforderungen an die Batch-Größe. Wir hoffen, dass minWM als reproduzierbares und erweiterbares Rezept zur Erstellung und Anpassung echtzeitfähiger interaktiver Video-Weltmodelle dient. Projektseite: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
English
Recent video diffusion foundation models have achieved remarkable progress in high-quality video generation, yet turning them into real-time interactive video world models remains challenging. Interactive world models require controllable, causal, and low-latency rollout, which in practice demands a full pipeline spanning data construction, controllable fine-tuning, autoregressive training, few-step distillation, and streaming inference. In this work, we present minWM, a full-stack open-source framework for building real-time interactive video world models. minWM provides an end-to-end pipeline that converts existing bidirectional T2V/TI2V video foundation models into camera-controllable few-step autoregressive world models. Specifically, minWM first fine-tunes a bidirectional video diffusion model with camera control, and then applies the Causal Forcing / Causal Forcing++ pipeline, including AR diffusion training, causal ODE or causal consistency distillation, and asymmetric DMD, to distill it into a few-step autoregressive generator for low-latency rollout. The framework is modular and architecture-extensible: we instantiate it on representative open backbones, including Wan2.1-T2V-1.3B and HY1.5-TI2V-8B, covering both cross-attention-based condition injection and MMDiT-style architectures. minWM also supports adapting existing video world models, such as HY-WorldPlay, to new data distributions, training recipes, and latency targets. Beyond releasing runnable scripts, checkpoints, documentation, and inference code, we provide practical ablations on camera trajectory quality, controllability training steps, and minimal batch-size requirements. We hope minWM serves as a reproducible and extensible recipe for building and adapting real-time interactive video world models. Project Page: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)