Модели действий в мире: обзор

Аннотация

Модели мировых действий (World Action Models, WAMs) представляют собой воплощённые модели предсказательных действий, которые формируют прогноз будущего, доступный для реализации действий. Современные WAMs адаптируют крупные модели генерации видео, а параллельное направление опирается на языковые или визуально-языковые основы (backbones) без использования генерации видео в качестве ядра. Стремительное развитие этой области размыло границы между широкими мировыми моделями, моделями генерации видео, видеомировыми моделями, основанными на действиях (action-grounded video world models), политиками «Видение–Язык–Действие» (Vision-Language-Action policies) и собственно WAMs. Настоящий обзор даёт единое описание этой области. В нём сначала проясняются указанные границы, а затем существующие работы систематизируются с помощью двух взаимодополняющих подходов. Первый подход выясняет, что именно требуется генерировать каждому методу: визуализированные будущие состояния (rendered futures), латентные будущие состояния (latent futures) или рассуждения о действиях без генерации видео (video-generation-free action reasoning). Второй подход разлагает каждый метод по предиктивному субстрату, основе (backbone), способу сопряжения с действиями (action coupling) и режиму развёртывания (deployment regime). Такая анатомия поддерживает единое обсуждение вопросов интерактивности, причинности, персистентности, физической правдоподобности и обобщения, за которым следуют данные, методы оценки и открытые проблемы. На пересечении этих осей выявляется последовательный шаблон проектирования: WAMs — это не просто генераторы видео с «головами» действий, а методы предсказательных действий, в которых проектные решения обменивают богатство представлений на вычислительные затраты, объём памяти, задержку и стоимость меток действий. Область движется к методам, которые генерируют меньше будущего, сохраняя при этом то, что необходимо для управления. Домашняя страница обзора: https://world-action-models.github.io/.

English

World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.