WALL-WM: Извлечение моделирования действий в мире на стыках событий
WALL-WM: Carving World Action Modeling at the Event Joints
June 1, 2026
Авторы: Shalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang
cs.AI
Аннотация
WALL-WM — это модель действий мира (World Action Model), которая переводит обучение видеодействиям от оптимизации на основе чанков к предобучению на основе событий в парадигме «зрение-язык-действие», используя семантически связные события действий как атомарную единицу обучения. Существующие модели действий мира обычно инициализируются от мультимодальных или видеомоделей-основ, а затем оптимизируют фиксированные по длине чанки действий, обусловленные непосредственно текущим наблюдением и инструкцией. Хотя такая чанко-ориентированная формулировка удобна, она создает фундаментальное несоответствие гранулярности. Язык описывает семантические цели и события, зрение эволюционирует в рамках непрерывной динамики сцены, а действия функционируют на временных масштабах управления; принудительное объединение всех трех в одно и то же фиксированное окно прогнозирования превращает обучение VLA в подгонку короткозорких корреляций. WALL-WM устраняет это несоответствие, организуя как супервизию, так и данные вокруг семантических событий. В частности, она сочетает событийно-ориентированное предобучение VLA с экосистемой данных, построенной на подписях на уровне событий и сбалансированной по кластерам выборке, что обеспечивает масштабируемое обучение на разнообразных поведениях, сценах и структурах задач. На основе одной и той же предобученной событиями базовой модели WALL-WM поддерживает два взаимодополняющих режима вывода. Режим событий использует описания следующих событий и позволяет выполнять переменные по длине чанки, в то время как объединенный режим использует языково-визуальную модель (VLM) с каскадным декодированием (Staircase Decoding) для управления традиционным выводом чанков фиксированной длины, сохраняя градиентно-непрерывный путь VLA. В сочетании с инфраструктурой крупномасштабного предобучения на основе оптимизатора Muon WALL-WM предлагает практичный рецепт масштабирования для универсальных моделей действий мира. Эксперименты показывают, что WALL-WM эффективно обобщается на различные языки, сцены и задачи, достигая передовых результатов в крупномасштабной оценке обобщения в реальных условиях.
English
WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.