Inferix: Um Motor de Inferência de Próxima Geração Baseado em Bloco-Difusão para Simulação de Mundos

Resumo

Os modelos de mundo servem como simuladores centrais para áreas como IA agentiva, IA incorporada e jogos, sendo capazes de gerar vídeos longos, fisicamente realistas, interativos e de alta qualidade. Além disso, a escalabilidade desses modelos pode desbloquear capacidades emergentes em percepção visual, compreensão e raciocínio, abrindo caminho para um novo paradigma que vai além dos atuais modelos de visão de base centrados em LLMs. Um avanço fundamental que os impulsiona é o paradigma de decodificação semi-autorregressiva (block-diffusion), que combina os pontos fortes dos métodos de difusão e autorregressivos ao gerar tokens de vídeo em blocos – aplicando difusão dentro de cada bloco enquanto condiciona os anteriores – resultando em sequências de vídeo mais coerentes e estáveis. Crucialmente, ele supera as limitações da difusão de vídeo padrão ao reintroduzir o gerenciamento de KV Cache no estilo LLM, permitindo geração eficiente, de comprimento variável e de alta qualidade. Portanto, o Inferix foi especificamente projetado como um motor de inferência de próxima geração para permitir a síntese imersiva de mundos por meio de processos de decodificação semi-autorregressiva otimizados. Este foco dedicado na simulação de mundos o diferencia claramente de sistemas projetados para cenários de alta concorrência (como vLLM ou SGLang) e dos modelos clássicos de difusão de vídeo (como xDiTs). O Inferix aprimora ainda mais sua proposta com streaming de vídeo interativo e profiling, permitindo interação em tempo real e simulação realista para modelar com precisão a dinâmica mundial. Adicionalmente, suporta avaliação eficiente por meio da integração perfeita do LV-Bench, um novo benchmark de avaliação refinado especificamente para cenários de geração de vídeo com duração de minutos. Esperamos que a comunidade trabalhe em conjunto para avançar o Inferix e fomentar a exploração de modelos de mundo.

English

World models serve as core simulators for fields such as agentic AI, embodied AI, and gaming, capable of generating long, physically realistic, and interactive high-quality videos. Moreover, scaling these models could unlock emergent capabilities in visual perception, understanding, and reasoning, paving the way for a new paradigm that moves beyond current LLM-centric vision foundation models. A key breakthrough empowering them is the semi-autoregressive (block-diffusion) decoding paradigm, which merges the strengths of diffusion and autoregressive methods by generating video tokens in block-applying diffusion within each block while conditioning on previous ones, resulting in more coherent and stable video sequences. Crucially, it overcomes limitations of standard video diffusion by reintroducing LLM-style KV Cache management, enabling efficient, variable-length, and high-quality generation. Therefore, Inferix is specifically designed as a next-generation inference engine to enable immersive world synthesis through optimized semi-autoregressive decoding processes. This dedicated focus on world simulation distinctly sets it apart from systems engineered for high-concurrency scenarios (like vLLM or SGLang) and from classic video diffusion models (such as xDiTs). Inferix further enhances its offering with interactive video streaming and profiling, enabling real-time interaction and realistic simulation to accurately model world dynamics. Additionally, it supports efficient benchmarking through seamless integration of LV-Bench, a new fine-grained evaluation benchmark tailored for minute-long video generation scenarios. We hope the community will work together to advance Inferix and foster world model exploration.