Weltaktionsmodelle: Ein Überblick

Zusammenfassung

World Action Models (WAMs) sind verkörperte prädiktive Aktionsmodelle, die eine Vorhersage der Zukunft für Handlungen bereitstellen. Aktuelle WAMs funktionieren große Videogenerierungsmodelle um, während eine parallele Forschungslinie auf Sprach- oder Vision-Language-Grundgerüsten ohne Videogenerierungskern basiert. Diese rasche Expansion hat die Grenzen zwischen breiten Weltmodellen, Videogenerierungsmodellen, handlungsfundierten Video-Weltmodellen, Vision-Language-Action-Policys und WAMs verschwimmen lassen. Diese Übersichtsarbeit liefert dem Feld eine gemeinsame Darstellung. Sie klärt zunächst diese Grenzen, um dann bestehende Arbeiten durch zwei komplementäre Perspektiven zu ordnen. Die erste Perspektive fragt, was jede Methode generieren muss – dies umfasst gerenderte Zukünfte, latente Zukünfte und videogenerierungsfreie Aktionsschlussfolgerung. Die zweite Perspektive zerlegt jede Methode nach prädiktivem Substrat, Grundgerüst, Aktionskopplung und Einsatzregime. Diese Anatomie ermöglicht eine einheitliche Diskussion von Interagierbarkeit, Kausalität, Persistenz, physikalischer Plausibilität und Generalisierung, gefolgt von Daten, Evaluation und offenen Herausforderungen. Über diese Achsen hinweg zeichnet sich ein einheitliches Entwurfsmuster ab: WAMs sind nicht einfach Videogeneratoren mit Aktionsköpfen, sondern prädiktive Aktionsmethoden, deren Designentscheidungen Repräsentationsreichtum gegen Rechenleistung, Speicher, Latenz und Aktionslabelkosten abwägen. Das Feld bewegt sich hin zu Methoden, die weniger von der Zukunft generieren, dabei aber bewahren, was die Steuerung erfordert. Die Übersichtsseite ist verfügbar unter https://world-action-models.github.io/.

English

World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.