ChatPaper.aiChatPaper

Inferix : Un moteur d'inférence nouvelle génération basé sur la diffusion par blocs pour la simulation du monde

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

November 25, 2025
papers.authors: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI

papers.abstract

Les modèles de monde servent de simulateurs centraux pour des domaines tels que l'IA agentique, l'IA incarnée et le jeu vidéo, capables de générer des vidéos de haute qualité, longues, physiquement réalistes et interactives. De plus, la mise à l'échelle de ces modèles pourrait débloquer des capacités émergentes en perception visuelle, compréhension et raisonnement, ouvrant la voie à un nouveau paradigme qui dépasse les modèles de vision fondationnels actuels centrés sur les LLM. Une percée clé qui les habilite est le paradigme de décodage semi-autorégressif (block-diffusion), qui fusionne les atouts des méthodes de diffusion et autorégressives en générant des tokens vidéo par blocs avec application de la diffusion au sein de chaque bloc tout en se conditionnant sur les précédents, produisant ainsi des séquences vidéo plus cohérentes et stables. Surtout, il surmonte les limitations de la diffusion vidéo standard en réintroduisant une gestion du cache KV de type LLM, permettant une génération efficace, de longueur variable et de haute qualité. Par conséquent, Inferix est spécifiquement conçu comme un moteur d'inférence de nouvelle génération pour permettre une synthèse immersive du monde grâce à des processus de décodage semi-autorégressifs optimisés. Cette focalisation dédiée sur la simulation du monde le distingue nettement des systèmes conçus pour des scénarios à haute concurrence (comme vLLM ou SGLang) et des modèles classiques de diffusion vidéo (tels que xDiTs). Inferix enrichit encore son offre avec du streaming vidéo interactif et du profilage, permettant une interaction en temps réel et une simulation réaliste pour modéliser avec précision la dynamique du monde. De plus, il prend en charge l'évaluation comparative efficace grâce à l'intégration transparente de LV-Bench, un nouveau benchmark d'évaluation granulaire conçu pour les scénarios de génération vidéo d'une minute. Nous espérons que la communauté collaborera pour faire progresser Inferix et favoriser l'exploration des modèles de monde.
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation. Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.
PDF432December 1, 2025