minWM: Полноценный фреймворк с открытым исходным кодом для интерактивных видео-мировых моделей в реальном времени
minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
May 28, 2026
Авторы: Min Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu
cs.AI
Аннотация
Недавние фундаментальные модели диффузии видео достигли значительного прогресса в генерации высококачественного видео, однако их превращение в интерактивные видеомировые модели реального времени остается сложной задачей. Интерактивные мировые модели требуют управляемого, каузального развертывания с низкой задержкой, что на практике предполагает наличие полного конвейера, включающего построение данных, управляемую тонкую настройку, авторегрессионное обучение, дистилляцию за несколько шагов и потоковый вывод. В данной работе мы представляем minWM — полноценный открытый фреймворк для построения интерактивных видеомировых моделей реального времени. minWM предоставляет сквозной конвейер, который преобразует существующие двунаправленные фундаментальные видеомодели T2V/TI2V в управляемые камерой авторегрессионные мировые модели за несколько шагов. В частности, minWM сначала выполняет тонкую настройку двунаправленной модели диффузии видео с управлением камерой, а затем применяет конвейер Causal Forcing / Causal Forcing++, включающий обучение AR-диффузии, каузальную дистилляцию ODE или каузальную дистилляцию согласованности и асимметричный DMD, чтобы дистиллировать ее в авторегрессионный генератор за несколько шагов для развертывания с низкой задержкой. Фреймворк является модульным и расширяемым по архитектуре: мы инстанцируем его на репрезентативных открытых базовых моделях, включая Wan2.1-T2V-1.3B и HY1.5-TI2V-8B, охватывающих как инжекцию условий на основе кросс-внимания, так и архитектуры в стиле MMDiT. minWM также поддерживает адаптацию существующих видеомировых моделей, таких как HY-WorldPlay, к новым распределениям данных, рецептам обучения и целевым показателям задержки. Помимо публикации исполняемых скриптов, контрольных точек, документации и кода для вывода, мы предоставляем практические абляции по качеству траектории камеры, шагам обучения управляемости и минимальным требованиям к размеру пакета. Мы надеемся, что minWM послужит воспроизводимым и расширяемым рецептом для построения и адаптации интерактивных видеомировых моделей реального времени.
Страница проекта: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
English
Recent video diffusion foundation models have achieved remarkable progress in high-quality video generation, yet turning them into real-time interactive video world models remains challenging. Interactive world models require controllable, causal, and low-latency rollout, which in practice demands a full pipeline spanning data construction, controllable fine-tuning, autoregressive training, few-step distillation, and streaming inference. In this work, we present minWM, a full-stack open-source framework for building real-time interactive video world models. minWM provides an end-to-end pipeline that converts existing bidirectional T2V/TI2V video foundation models into camera-controllable few-step autoregressive world models. Specifically, minWM first fine-tunes a bidirectional video diffusion model with camera control, and then applies the Causal Forcing / Causal Forcing++ pipeline, including AR diffusion training, causal ODE or causal consistency distillation, and asymmetric DMD, to distill it into a few-step autoregressive generator for low-latency rollout. The framework is modular and architecture-extensible: we instantiate it on representative open backbones, including Wan2.1-T2V-1.3B and HY1.5-TI2V-8B, covering both cross-attention-based condition injection and MMDiT-style architectures. minWM also supports adapting existing video world models, such as HY-WorldPlay, to new data distributions, training recipes, and latency targets. Beyond releasing runnable scripts, checkpoints, documentation, and inference code, we provide practical ablations on camera trajectory quality, controllability training steps, and minimal batch-size requirements. We hope minWM serves as a reproducible and extensible recipe for building and adapting real-time interactive video world models.
Project Page: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)