Inferix: Un motore di inferenza di nuova generazione basato su Block-Diffusion per la simulazione del mondo
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
November 25, 2025
Autori: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI
Abstract
I modelli mondiali fungono da simulatori centrali per settori come l'IA agenziale, l'IA incarnata e il gaming, essendo in grado di generare video di alta qualità, lunghi, fisicamente realistici e interattivi. Inoltre, il ridimensionamento di questi modelli potrebbe sbloccare capacità emergenti nella percezione, comprensione e ragionamento visivo, aprendo la strada a un nuovo paradigma che va oltre gli attuali modelli di fondazione visiva incentrati sugli LLM. Una svolta chiave che li abilita è il paradigma di decodifica semi-autoregressiva (block-diffusion), che fonde i punti di forza dei metodi diffusion e autoregressivi generando token video in blocchi, applicando la diffusione all'interno di ogni blocco condizionandolo a quelli precedenti, ottenendo così sequenze video più coerenti e stabili. Fondamentalmente, supera i limiti della diffusione video standard reintroducendo la gestione della KV Cache in stile LLM, consentendo una generazione efficiente, di lunghezza variabile e di alta qualità.
Pertanto, Inferix è stato specificamente progettato come motore di inferenza di prossima generazione per abilitare la sintesi immersiva di mondi attraverso processi di decodifica semi-autoregressiva ottimizzati. Questo focus dedicato sulla simulazione mondiale lo distingue nettamente dai sistemi progettati per scenari ad alta concorrenza (come vLLM o SGLang) e dai classici modelli di diffusione video (come xDiTs). Inferix migliora ulteriormente la sua offerta con lo streaming video interattivo e il profiling, consentendo l'interazione in tempo reale e una simulazione realistica per modellare accuratamente le dinamiche mondiali. Inoltre, supporta una valutazione efficiente attraverso l'integrazione seamless di LV-Bench, un nuovo benchmark di valutazione fine-grain specificamente studiato per scenari di generazione video della durata di minuti. Speriamo che la comunità lavori insieme per far progredire Inferix e favorire l'esplorazione dei modelli mondiali.
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation.
Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.