Modelli di Generazione Video come Modelli del Mondo: Paradigmi, Architetture e Algoritmi Efficienti
Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms
March 30, 2026
Autori: Muyang He, Hanzhong Guo, Junxiong Lin, Yizhou Yu
cs.AI
Abstract
La rapida evoluzione della generazione video ha consentito ai modelli di simulare dinamiche fisiche complesse e causalità a lungo termine, posizionandoli come potenziali simulatori del mondo. Tuttavia, rimane un divario critico tra la capacità teorica di simulazione del mondo e gli elevati costi computazionali della modellazione spazio-temporale. Per affrontare questo problema, esaminiamo in modo completo e sistematico i framework e le tecniche di generazione video che considerano l'efficienza come un requisito cruciale per una modellazione pratica del mondo. Introduciamo una nuova tassonomia tridimensionale: paradigmi di modellazione efficiente, architetture di rete efficienti e algoritmi di inferenza efficienti. Dimostriamo inoltre che colmare questo divario di efficienza potenzia direttamente applicazioni interattive come la guida autonoma, l'AI incarnata e la simulazione di giochi. Infine, identifichiamo nuove frontiere di ricerca nella modellazione efficiente del mondo basata su video, sostenendo che l'efficienza è un prerequisito fondamentale per evolvere i generatori video verso simulatori del mondo generici, in tempo reale e robusti.
English
The rapid evolution of video generation has enabled models to simulate complex physical dynamics and long-horizon causalities, positioning them as potential world simulators. However, a critical gap still remains between the theoretical capacity for world simulation and the heavy computational costs of spatiotemporal modeling. To address this, we comprehensively and systematically review video generation frameworks and techniques that consider efficiency as a crucial requirement for practical world modeling. We introduce a novel taxonomy in three dimensions: efficient modeling paradigms, efficient network architectures, and efficient inference algorithms. We further show that bridging this efficiency gap directly empowers interactive applications such as autonomous driving, embodied AI, and game simulation. Finally, we identify emerging research frontiers in efficient video-based world modeling, arguing that efficiency is a fundamental prerequisite for evolving video generators into general-purpose, real-time, and robust world simulators.