ChatPaper.aiChatPaper

Inferix: Un Motor de Inferencia de Próxima Generación Basado en Difusión por Bloques para la Simulación de Mundos

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

November 25, 2025
Autores: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI

Resumen

Los modelos de mundo funcionan como simuladores centrales para campos como la IA agentiva, la IA incorporada y los videojuegos, siendo capaces de generar vídeos de alta calidad, largos, físicamente realistas e interactivos. Además, escalar estos modelos podría desbloquear capacidades emergentes en percepción, comprensión y razonamiento visual, allanando el camino para un nuevo paradigma que supere los modelos de visión fundamentales actuales centrados en LLM. Un avance clave que los impulsa es el paradigma de decodificación semi-autorregresiva (difusión por bloques), que fusiona las fortalezas de los métodos de difusión y autorregresivos al generar tokens de vídeo aplicando difusión por bloques dentro de cada bloque mientras se condiciona por los anteriores, lo que da como resultado secuencias de vídeo más coherentes y estables. Crucialmente, supera las limitaciones de la difusión de vídeo estándar al reintroducir la gestión de caché KV al estilo LLM, permitiendo una generación eficiente, de longitud variable y de alta calidad. Por lo tanto, Inferix está específicamente diseñado como un motor de inferencia de próxima generación para permitir la síntesis inmersiva de mundos mediante procesos de decodificación semi-autorregresivos optimizados. Este enfoque dedicado a la simulación de mundos lo distingue claramente de los sistemas diseñados para escenarios de alta concurrencia (como vLLM o SGLang) y de los modelos clásicos de difusión de vídeo (como xDiTs). Inferix mejora aún más su propuesta con transmisión interactiva de vídeo y generación de perfiles, permitiendo la interacción en tiempo real y una simulación realista para modelar con precisión la dinámica mundial. Adicionalmente, admite una evaluación comparativa eficiente mediante la integración perfecta de LV-Bench, un nuevo punto de referencia de evaluación de grano fino adaptado para escenarios de generación de vídeos de minuto de duración. Esperamos que la comunidad colabore para avanzar en Inferix y fomentar la exploración de modelos de mundo.
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation. Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.
PDF432December 1, 2025