ChatPaper.aiChatPaper

DreamForge-World 0.1 プレビュー: 低計算リソースでリアルタイム制御可能な世界モデル

DreamForge-World 0.1 Preview: A Low-Compute Real-Time Controllable World Model

June 29, 2026
著者: Daniyel Ayupov, Artur Markov-Tsoy
cs.AI

要旨

本論文では、リアルタイム対話型世界シミュレーションのための基盤的世界モデルのプレビュー版であるDreamForge-World 0.1 Previewを提案する。本システムは、Wan2.1-T2V-1.3BをベースとするLongLive 1自己回帰ビデオスタックを適応し、Matrix-Gameファミリーに着想を得た残差アクションパス(residual action pathway)を組み込んでいる。DreamForge-World 0.1 Previewは、フロンティア級の世界シミュレータとは相補的な軸、すなわち低計算リソースへの適応、コンシューマGPUでの実行、そして広範な対話能力のカバレッジに焦点を当てている。本システムは、ライブでのキーボード・マウス制御、マルチモーダル初期化、途中再プロンプト、デュアルビュー操作、ネイティブ480p解像度での分単位の対話的ロールアウトをサポートし、低メモリフットプリントで単一のRTX 4090上で最大14~15 FPSを達成する。オープンなビデオバックボーンを活用し、ターゲットを絞った適応学習を施すことで、高いコスト効率でプレビューシステムを構築した。DF-World 0.1 Previewは、まだメモリ完全性やフロンティア品質を備えた世界シミュレータではないが、コンシューマGPU上でリアルタイム制御可能な世界モデルプレビューへの実用的な低計算ルートを示すものである。
English
We present DreamForge-World 0.1 Preview, a preview foundational world model for real-time interactive world simulation. The system adapts the LongLive 1 autoregressive video stack, itself derived from Wan2.1-T2V-1.3B, with a residual action pathway inspired by the Matrix-Game family. DreamForge-World 0.1 Preview focuses on a complementary axis to frontier-scale world simulators: low-compute adaptation, consumer-GPU runtime, and broad interactive capability coverage. It supports live keyboard and mouse control, multimodal initialization, mid-stream reprompting, dual-view operation, and minute-scale interactive rollouts at native 480p resolution, reaching up to 14 to 15 FPS FPS on a single RTX 4090 with a low memory footprint. By leveraging open video backbones and applying targeted adaptation runs, we build the preview system with high cost-efficiency. DF-World 0.1 Preview is not yet a memory-complete or frontier-quality world simulator, but demonstrates a practical low-compute route toward real-time controllable world-model previews on consumer GPUs.