ChatPaper.aiChatPaper

Videogeneratiemodellen als wereldmodellen: Efficiënte paradigma's, architecturen en algoritmen

Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms

March 30, 2026
Auteurs: Muyang He, Hanzhong Guo, Junxiong Lin, Yizhou Yu
cs.AI

Samenvatting

De snelle evolutie van videogeneratie heeft modellen in staat gesteld om complexe fysieke dynamiek en langetermijncausaliteiten te simuleren, waardoor ze zich positioneren als potentiële wereldsimulators. Er blijft echter een kritieke kloof bestaan tussen de theoretische capaciteit voor wereldsimulatie en de hoge computationele kosten van spatiotemporele modellering. Om dit aan te pakken, geven we een uitgebreid en systematisch overzicht van videogeneratiekaders en -technieken die efficiëntie als een cruciale vereiste voor praktische wereldmodellering beschouwen. We introduceren een nieuwe taxonomie in drie dimensies: efficiënte modelleringsparadigma's, efficiënte netwerkarchitecturen en efficiënte inferentie-algoritmen. We tonen verder aan dat het overbruggen van deze efficiëntiekloof interactieve toepassingen zoals autonoom rijden, belichaamde AI en gamesimulatie direct versterkt. Ten slotte identificeren we opkomende onderzoeksfronten in efficiënte op video gebaseerde wereldmodellering, met het argument dat efficiëntie een fundamentele voorwaarde is voor de evolutie van videogeneratoren naar algemene, real-time en robuuste wereldsimulators.
English
The rapid evolution of video generation has enabled models to simulate complex physical dynamics and long-horizon causalities, positioning them as potential world simulators. However, a critical gap still remains between the theoretical capacity for world simulation and the heavy computational costs of spatiotemporal modeling. To address this, we comprehensively and systematically review video generation frameworks and techniques that consider efficiency as a crucial requirement for practical world modeling. We introduce a novel taxonomy in three dimensions: efficient modeling paradigms, efficient network architectures, and efficient inference algorithms. We further show that bridging this efficiency gap directly empowers interactive applications such as autonomous driving, embodied AI, and game simulation. Finally, we identify emerging research frontiers in efficient video-based world modeling, arguing that efficiency is a fundamental prerequisite for evolving video generators into general-purpose, real-time, and robust world simulators.
PDF302April 17, 2026