World Action Models: Een Overzicht

Samenvatting

World Action Models (WAM's) zijn belichaamde voorspellende-actiemodellen die een voorspelling van de toekomst beschikbaar maken voor actie. Recente WAM's hergebruiken grote videogeneratiemodellen, en een parallelle lijn vertrouwt op taal- of visie-taal-backbones zonder een videogeneratiekern. Deze snelle expansie heeft de grens vervaagd tussen brede wereldmodellen, videogeneratiemodellen, actie-grond videowereldmodellen, Visie-Taal-Actie-beleid en WAM's. Dit overzicht geeft het vakgebied een gemeenschappelijke beschrijving. Het verduidelijkt eerst deze grenzen, en organiseert vervolgens bestaande werken via twee complementaire perspectieven. Het eerste perspectief vraagt wat elke methode moet genereren, variërend van gerenderde toekomsten, latente toekomsten, en videogeneratievrije actieredenering. Het tweede perspectief ontleedt elke methode op basis van voorspellend substraat, backbone, actiekoppeling en implementatieregime. Deze anatomie ondersteunt een uniforme discussie over interacteerbaarheid, causaliteit, persistentie, fysieke plausibiliteit en generalisatie, gevolgd door data, evaluatie en open uitdagingen. Over deze assen heen ontstaat een consistent ontwerppatroon: WAM's zijn niet simpelweg videogeneratoren met actiekoppen, maar voorspellende-actiemethoden waarvan de ontwerpkeuzes representatierijkdom afwegen tegen rekenkracht, geheugen, latentie en actie-labels kost. Het vakgebied beweegt zich richting methoden die minder van de toekomst genereren, terwijl ze behouden wat controle vereist. De startpagina van het overzicht is beschikbaar op https://world-action-models.github.io/.

English

World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.