Modelos de Geração de Vídeo como Modelos de Mundo: Paradigmas, Arquiteturas e Algoritmos Eficientes
Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms
March 30, 2026
Autores: Muyang He, Hanzhong Guo, Junxiong Lin, Yizhou Yu
cs.AI
Resumo
A evolução acelerada da geração de vídeo permitiu que modelos simulassem dinâmicas físicas complexas e causalidades de longo prazo, posicionando-os como potenciais simuladores do mundo. No entanto, persiste uma lacuna crítica entre a capacidade teórica de simulação do mundo e os elevados custos computacionais da modelagem espaço-temporal. Para enfrentar este desafio, realizamos uma revisão abrangente e sistemática de estruturas e técnicas de geração de vídeo que consideram a eficiência como um requisito crucial para a modelagem prática do mundo. Introduzimos uma nova taxonomia em três dimensões: paradigmas de modelagem eficiente, arquiteturas de rede eficientes e algoritmos de inferência eficientes. Demonstramos ainda que superar esta lacuna de eficiência capacita diretamente aplicações interativas como condução autónoma, IA incorporada e simulação de jogos. Por fim, identificamos novas fronteiras de investigação na modelagem eficiente do mundo baseada em vídeo, argumentando que a eficiência é um pré-requisito fundamental para evoluir os geradores de vídeo para simuladores do mundo de propósito geral, em tempo real e robustos.
English
The rapid evolution of video generation has enabled models to simulate complex physical dynamics and long-horizon causalities, positioning them as potential world simulators. However, a critical gap still remains between the theoretical capacity for world simulation and the heavy computational costs of spatiotemporal modeling. To address this, we comprehensively and systematically review video generation frameworks and techniques that consider efficiency as a crucial requirement for practical world modeling. We introduce a novel taxonomy in three dimensions: efficient modeling paradigms, efficient network architectures, and efficient inference algorithms. We further show that bridging this efficiency gap directly empowers interactive applications such as autonomous driving, embodied AI, and game simulation. Finally, we identify emerging research frontiers in efficient video-based world modeling, arguing that efficiency is a fundamental prerequisite for evolving video generators into general-purpose, real-time, and robust world simulators.