ChatPaper.aiChatPaper

Инферикс: Блочно-диффузионный движок логического вывода нового поколения для симуляции миров

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

November 25, 2025
Авторы: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI

Аннотация

Мир-модели служат основными симуляторами для таких областей, как агентный ИИ, воплощенный ИИ и игровая индустрия, способными генерировать длинные, физически реалистичные и интерактивные видео высокого качества. Более того, масштабирование этих моделей может раскрыть эмерджентные способности в области визуального восприятия, понимания и логического вывода, прокладывая путь к новой парадигме, выходящей за рамки современных визуальных базовых моделей, сфокусированных на больших языковых моделях (LLM). Ключевым прорывом, обеспечивающим их работу, является полуавторегрессивная парадигма декодирования (block-diffusion), которая объединяет преимущества диффузионных и авторегрессивных методов, генерируя видео-токены блоками с применением диффузии внутри каждого блока при условии зависимости от предыдущих блоков, что приводит к более согласованным и стабильным видео-последовательностям. Важно, что этот подход преодолевает ограничения стандартной видео-диффузии за счет повторного внедрения управления кэшем ключей-значений (KV Cache) в стиле LLM, что обеспечивает эффективную, вариабельную по длине и качественную генерацию. Следовательно, Inferix был специально разработан как двигатель вывода следующего поколения для обеспечения иммерсивного синтеза миров через оптимизированные полуавторегрессивные процессы декодирования. Эта узкая специализация на симуляции мира четко отличает его от систем, созданных для сценариев с высокой параллельной нагрузкой (таких как vLLM или SGLang), и от классических моделей видео-диффузии (таких как xDiTs). Inferix дополнительно расширяет свои возможности за счет интерактивной потоковой передачи видео и профилирования, позволяя осуществлять взаимодействие в реальном времени и реалистичное моделирование для точного описания динамики мира. Кроме того, система поддерживает эффективное тестирование производительности благодаря бесшовной интеграции с LV-Bench — новым детализированным бенчмарком для оценки, созданным specifically для сценариев генерации минутных видео. Мы надеемся, что сообщество объединит усилия для развития Inferix и стимулирования исследований в области мир-моделей.
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation. Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.
PDF432December 1, 2025