Modelos de Acción del Mundo: Una Revisión

Resumen

Los Modelos de Acción Mundial (WAMs, por sus siglas en inglés) son modelos predictivos de acción encarnados que ponen a disposición de la acción una previsión del futuro. Los WAMs recientes reutilizan grandes modelos de generación de video, mientras que una línea paralela se basa en arquitecturas de lenguaje o visión-lenguaje sin un núcleo de generación de video. Esta rápida expansión ha desdibujado los límites entre modelos mundiales amplios, modelos de generación de video, modelos de video-mundiales basados en acción, políticas de Visión-Lenguaje-Acción y los propios WAMs. Esta revisión ofrece una visión unificada del campo. Primero, aclara estos límites; luego, organiza los trabajos existentes mediante dos perspectivas complementarias. La primera perspectiva pregunta qué debe generar cada método, abarcando futuros renderizados, futuros latentes y razonamiento de acción sin generación de video. La segunda perspectiva descompone cada método según su sustrato predictivo, arquitectura base, acoplamiento de acción y régimen de despliegue. Esta anatomía permite una discusión unificada sobre interactuabilidad, causalidad, persistencia, plausibilidad física y generalización, seguida de datos, evaluación y desafíos abiertos. A lo largo de estos ejes, emerge un patrón de diseño consistente: los WAMs no son simplemente generadores de video con cabezales de acción, sino métodos predictivos de acción cuyas decisiones de diseño intercambian riqueza representacional por costo computacional, memoria, latencia y costo de etiquetas de acción. El campo avanza hacia métodos que generan menos del futuro mientras preservan lo que requiere el control. La página de inicio de la revisión está disponible en https://world-action-models.github.io/.

English

World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.