Inferix: Een op blokdiffusie gebaseerde volgende-generatie inferentie-engine voor wereldsimulatie
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
November 25, 2025
Auteurs: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI
Samenvatting
Wereldmodellen fungeren als kernsimulatoren voor domeinen zoals agent-gebaseerde AI, embodied AI en gaming, en zijn in staat om lange, fysiek realistische en interactieve video's van hoge kwaliteit te genereren. Bovendien kan het opschalen van deze modellen emergente capaciteiten in visuele perceptie, begrip en redenering ontgrendelen, wat de weg effent voor een nieuw paradigma dat verder gaat dan de huidige LLM-gecentreerde visuele foundationmodellen. Een cruciale doorbraak die deze modellen mogelijk maakt, is het semi-autoregressieve (block-diffusion) decodeerparadigma. Dit paradigma combineert de kracht van diffusie- en autoregressieve methoden door videotokens in blokken te genereren, waarbij diffusie binnen elk blok wordt toegepast onder conditionering op voorgaande blokken, wat resulteert in coherentere en stabielere videosequenties. Cruciaal is dat het de beperkingen van standaard videodiffusie overwint door het opnieuw introduceren van LLM-stijl KV Cache-beheer, wat efficiënte, variabele-lengte en hoogwaardige generatie mogelijk maakt.
Daarom is Inferix specifiek ontworpen als een next-generation inference-engine om immersive wereldsynthese mogelijk te maken via geoptimaliseerde semi-autoregressieve decodeerprocessen. Deze toegewijde focus op wereldsimulatie onderscheidt het duidelijk van systemen die zijn ontwikkeld voor scenario's met hoge gelijktijdigheid (zoals vLLM of SGLang) en van klassieke videodiffusiemodellen (zoals xDiTs). Inferix versterkt zijn aanbod verder met interactieve videostreaming en profiling, waardoor real-time interactie en realistische simulatie mogelijk worden om werelddynamiek nauwkeurig te modelleren. Bovendien ondersteunt het efficiënt benchmarken via naadloze integratie van LV-Bench, een nieuwe fijnmazige evaluatiestandaard die is toegesneden op minutenlange videogeneratiescenario's. We hopen dat de gemeenschap zal samenwerken om Inferix verder te ontwikkelen en de verkenning van wereldmodellen te bevorderen.
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation.
Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.