Inferix: 世界シミュレーションのためのブロック拡散ベース次世代推論エンジン
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
November 25, 2025
著者: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI
要旨
ワールドモデルは、エージェントAI、エンボディードAI、ゲームなどの分野における中核的なシミュレータとして機能し、長尺で物理的に現実的かつインタラクティブな高品質動画を生成することができます。さらに、これらのモデルをスケーリングすることで、視覚的知覚・理解・推論における創発的能力が解放され、現在のLLM中心のビジョン基盤モデルを超える新たなパラダイムへの道を開く可能性があります。これを可能にする重要な突破口が、半自己回帰的(ブロック拡散)デコーディング・パラダイムです。この手法は、動画トークンをブロック単位で生成する際に、各ブロック内で拡散手法を適用するとともに前のブロックを条件付けすることで、拡散法と自己回帰法の長所を融合し、より一貫性があり安定した動画シーケンスを実現します。決定的に、標準的な動画拡散モデルの限界を、LLMスタイルのKVキャッシュ管理を再導入することで克服し、効率的で可変長かつ高品質な生成を可能にしています。
したがって、Inferixは没入型のワールド合成を最適化された半自己回帰的デコーディングプロセスを通じて実現する次世代推論エンジンとして特別に設計されています。ワールドシミュレーションへのこの特化した焦点こそが、高並行性シナリオ向けに設計されたシステム(vLLMやSGLangなど)や従来の動画拡散モデル(xDiTsなど)との明確な差別化要因です。Inferixはさらに、インタラクティブ動画ストリーミングとプロファイリング機能を備え、リアルタイムな相互作用と現実的なシミュレーションを可能にし、世界の力学を正確にモデル化します。加えて、分単位の長尺動画生成シナリオに特化した新たなきめ細かい評価基準であるLV-Benchのシームレスな統合を通じて、効率的なベンチマーキングをサポートします。私たちは、コミュニティが協力してInferixを発展させ、ワールドモデルの探求を促進することを願っています。
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation.
Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.