ChatPaper.aiChatPaper

인페릭스: 세계 시뮬레이션을 위한 차세대 블록-디퓨전 기반 추론 엔진

Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

November 25, 2025
저자: Inferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang
cs.AI

초록

월드 모델은 에이전트 AI, 구현형 AI, 게임 등 다양한 분야의 핵심 시뮬레이터 역할을 하며, 물리적으로 현실적이고 상호작용 가능한 장시간 고품질 비디오를 생성할 수 있습니다. 더 나아가 이러한 모델의 규모 확장은 시각적 인지, 이해 및 추론 분야에서의 새로운 능력 발현을 가능케 하여, 현재의 대규모 언어 모델(LLM) 중심 비전 기초 모델을 넘어서는 새로운 패러다임을 열어갈 수 있습니다. 이를 가능하게 한 핵심 기술은 반자회귀(블록 디퓨전) 디코딩 패러다임으로, 디퓨전과 자회귀 방식의 장점을 결합하여 비디오 토큰을 블록 단위로 생성합니다. 각 블록 내에서는 디퓨전을 적용하면서 이전 블록의 정보를 조건으로 활용함으로써 더욱 일관되고 안정적인 비디오 시퀀스를 만들어냅니다. 특히, 표준 비디오 디퓨전의 한계를 극복하기 위해 LLM 스타일의 KV 캐시 관리 방식을 재도입하여 효율적이고 가변 길이의 고품질 생성을 가능하게 했습니다. 이에 따라 인페릭스(Inferix)는 최적화된 반자회귀 디코딩 프로세스를 통해 몰입형 세계 합성을 가능하게 하는 차세대 추론 엔진으로 특별히 설계되었습니다. 세계 시뮬레이션에 대한 이러한 집중적인 초점은 높은 동시성 처리를 위해 설계된 시스템(vLLM 또는 SGLang 등)이나 기존의 고전적인 비디오 디퓨전 모델(xDiTs 등)과 차별화되는 점입니다. 인페릭스는 상호작용형 비디오 스트리밍 및 프로파일링 기능을 추가로 제공하여 실시간 상호작용과 현실적인 시뮬레이션을 통해 세계의 역학을 정확하게 모델링할 수 있게 합니다. 또한, 1분 이상의 장시간 비디오 생성 시나리오에 맞춰 설계된 새로운 세분화 평가 벤치마크인 LV-Bench을 원활하게 통합하여 효율적인 성능 평가를 지원합니다. 우리는 커뮤니티가 함께 인페릭스의 발전을 도모하고 월드 모델 탐구를 활성화하기를 기대합니다.
English
World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation. Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.
PDF432December 1, 2025