Inferix: Eine Block-Diffusion-basierte Inference-Engine der nächsten Generation für Weltsimulation
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
November 25, 2025
papers.authors: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI
papers.abstract
Weltmodelle fungieren als zentrale Simulatoren für Bereiche wie agentenbasierte KI, verkörperte KI und Gaming, die in der Lage sind, lange, physikalisch realistische und interaktive hochwertige Videos zu generieren. Darüber hinaus könnte die Skalierung dieser Modelle emergente Fähigkeiten in visueller Wahrnehmung, Verständnis und logischem Schlussfolgern freisetzen und den Weg für ein neues Paradigma ebnen, das über die aktuellen LLM-zentrierten Vision-Foundation-Modelle hinausgeht. Ein entscheidender Durchbruch, der sie ermöglicht, ist das semi-autoregressive (Block-Diffusion-) Dekodierungsparadigma, das die Stärken von Diffusions- und autoregressiven Methoden vereint, indem es Videotokens blockweise generiert – dabei wird Diffusion innerhalb jedes Blocks angewendet, während auf vorherige Blöcke konditioniert wird, was kohärentere und stabilere Videosequenzen ergibt. Entscheidend ist, dass es die Grenzen standardmäßiger Videodiffusion überwindet, indem es LLM-artiges KV-Cache-Management wieder einführt und so effiziente, variabel lange und hochwertige Generierung ermöglicht.
Daher ist Inferix speziell als eine Inference-Engine der nächsten Generation konzipiert, um immersive Weltsynthese durch optimierte semi-autoregressive Dekodierungsprozesse zu ermöglichen. Dieser gezielte Fokus auf Weltsimulation unterscheidet es deutlich von Systemen, die für Hochparallelitäts-Szenarien entwickelt wurden (wie vLLM oder SGLang), und von klassischen Videodiffusionsmodellen (wie xDiTs). Inferix erweitert sein Angebot weiter durch interaktives Video-Streaming und Profiling, was Echtzeitinteraktion und realistische Simulation ermöglicht, um Weltdynamiken präzise zu modellieren. Zusätzlich unterstützt es effizientes Benchmarking durch nahtlose Integration von LV-Bench, einem neuen feingranularen Evaluierungsbenchmark, der für minutenlange Videogenerierungsszenarien maßgeschneidert ist. Wir hoffen, dass die Community zusammenarbeiten wird, um Inferix voranzutreiben und die Erforschung von Weltmodellen zu fördern.
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation.
Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.