minWM : un cadre open-source complet pour des modèles de mondes vidéo interactifs en temps réel

Résumé

Les modèles de base récents de diffusion vidéo ont réalisé des progrès remarquables dans la génération de vidéos de haute qualité, mais les transformer en modèles de monde vidéo interactifs en temps réel reste un défi. Les modèles de monde interactifs nécessitent un déploiement contrôlable, causal et à faible latence, ce qui en pratique exige un pipeline complet couvrant la construction de données, le réglage fin contrôlable, l'entraînement autorégressif, la distillation en quelques étapes et l'inférence en continu. Dans ce travail, nous présentons minWM, un cadre open-source complet pour construire des modèles de monde vidéo interactifs en temps réel. minWM fournit un pipeline de bout en bout qui convertit les modèles de base vidéo bidirectionnels T2V/TI2V existants en modèles de monde autorégressifs en quelques étapes contrôlables par caméra. Plus précisément, minWM effectue d'abord un réglage fin d'un modèle de diffusion vidéo bidirectionnel avec contrôle de caméra, puis applique le pipeline Causal Forcing / Causal Forcing++, incluant l'entraînement à diffusion AR, la distillation ODE causale ou de cohérence causale, et la DMD asymétrique, pour le distiller en un générateur autorégressif en quelques étapes pour un déploiement à faible latence. Le cadre est modulaire et extensible en termes d'architecture : nous l'instancions sur des backbones ouverts représentatifs, notamment Wan2.1-T2V-1.3B et HY1.5-TI2V-8B, couvrant à la fois l'injection de condition basée sur l'attention croisée et les architectures de style MMDiT. minWM prend également en charge l'adaptation de modèles de monde vidéo existants, tels que HY-WorldPlay, à de nouvelles distributions de données, recettes d'entraînement et objectifs de latence. Au-delà de la publication de scripts exécutables, de points de contrôle, de documentation et de code d'inférence, nous fournissons des ablations pratiques sur la qualité de la trajectoire de la caméra, les étapes d'entraînement à la contrôlabilité et les exigences minimales de taille de lot. Nous espérons que minWM servira de recette reproductible et extensible pour construire et adapter des modèles de monde vidéo interactifs en temps réel. Page du projet : [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)

English

Recent video diffusion foundation models have achieved remarkable progress in high-quality video generation, yet turning them into real-time interactive video world models remains challenging. Interactive world models require controllable, causal, and low-latency rollout, which in practice demands a full pipeline spanning data construction, controllable fine-tuning, autoregressive training, few-step distillation, and streaming inference. In this work, we present minWM, a full-stack open-source framework for building real-time interactive video world models. minWM provides an end-to-end pipeline that converts existing bidirectional T2V/TI2V video foundation models into camera-controllable few-step autoregressive world models. Specifically, minWM first fine-tunes a bidirectional video diffusion model with camera control, and then applies the Causal Forcing / Causal Forcing++ pipeline, including AR diffusion training, causal ODE or causal consistency distillation, and asymmetric DMD, to distill it into a few-step autoregressive generator for low-latency rollout. The framework is modular and architecture-extensible: we instantiate it on representative open backbones, including Wan2.1-T2V-1.3B and HY1.5-TI2V-8B, covering both cross-attention-based condition injection and MMDiT-style architectures. minWM also supports adapting existing video world models, such as HY-WorldPlay, to new data distributions, training recipes, and latency targets. Beyond releasing runnable scripts, checkpoints, documentation, and inference code, we provide practical ablations on camera trajectory quality, controllability training steps, and minimal batch-size requirements. We hope minWM serves as a reproducible and extensible recipe for building and adapting real-time interactive video world models. Project Page: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)