WALL-WM: Извлечение моделирования действий в мире на стыках событий

Аннотация

WALL-WM — это модель действий мира (World Action Model), которая переводит обучение видеодействиям от оптимизации на основе чанков к предобучению на основе событий в парадигме «зрение-язык-действие», используя семантически связные события действий как атомарную единицу обучения. Существующие модели действий мира обычно инициализируются от мультимодальных или видеомоделей-основ, а затем оптимизируют фиксированные по длине чанки действий, обусловленные непосредственно текущим наблюдением и инструкцией. Хотя такая чанко-ориентированная формулировка удобна, она создает фундаментальное несоответствие гранулярности. Язык описывает семантические цели и события, зрение эволюционирует в рамках непрерывной динамики сцены, а действия функционируют на временных масштабах управления; принудительное объединение всех трех в одно и то же фиксированное окно прогнозирования превращает обучение VLA в подгонку короткозорких корреляций. WALL-WM устраняет это несоответствие, организуя как супервизию, так и данные вокруг семантических событий. В частности, она сочетает событийно-ориентированное предобучение VLA с экосистемой данных, построенной на подписях на уровне событий и сбалансированной по кластерам выборке, что обеспечивает масштабируемое обучение на разнообразных поведениях, сценах и структурах задач. На основе одной и той же предобученной событиями базовой модели WALL-WM поддерживает два взаимодополняющих режима вывода. Режим событий использует описания следующих событий и позволяет выполнять переменные по длине чанки, в то время как объединенный режим использует языково-визуальную модель (VLM) с каскадным декодированием (Staircase Decoding) для управления традиционным выводом чанков фиксированной длины, сохраняя градиентно-непрерывный путь VLA. В сочетании с инфраструктурой крупномасштабного предобучения на основе оптимизатора Muon WALL-WM предлагает практичный рецепт масштабирования для универсальных моделей действий мира. Эксперименты показывают, что WALL-WM эффективно обобщается на различные языки, сцены и задачи, достигая передовых результатов в крупномасштабной оценке обобщения в реальных условиях.

English

WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.