WALL-WM: Modelando Acciones del Mundo en las Articulaciones de Eventos

Resumen

WALL-WM es un Modelo de Acción Mundial (WAM) que transforma el aprendizaje de acciones en video desde una optimización centrada en fragmentos hacia un preentrenamiento Visión-Lenguaje-Acción (VLA) basado en eventos, utilizando eventos de acción semánticamente coherentes como unidad atómica de aprendizaje. Los WAM existentes suelen inicializarse a partir de modelos fundacionales multimodales o de video y luego optimizan fragmentos de acción de longitud fija condicionados directamente a la observación e instrucción actuales. Aunque es conveniente, esta formulación centrada en fragmentos genera un desajuste fundamental de granularidad. El lenguaje describe metas semánticas y eventos, la visión evoluciona a través de dinámicas de escena continuas, y las acciones operan en escalas temporales de control; forzar a los tres dentro de la misma ventana de predicción de longitud fija convierte el entrenamiento VLA en un ajuste de correlación de corto alcance. WALL-WM aborda este desajuste organizando tanto la supervisión como los datos en torno a eventos semánticos. Específicamente, empareja el preentrenamiento VLA basado en eventos con un ecosistema de datos construido a partir de descripciones a nivel de evento y muestreo balanceado por clústeres, permitiendo un aprendizaje escalable en diversos comportamientos, escenas y estructuras de tareas. Desde el mismo tronco preentrenado con eventos, WALL-WM admite dos modos de inferencia complementarios. El modo evento consume descripciones del siguiente evento y permite fragmentos de ejecución de longitud variable, mientras que el modo unificado utiliza un VLM con Decodificación Escalonada (Staircase Decoding) para condicionar la inferencia convencional de fragmentos de longitud fija, preservando al mismo tiempo una ruta VLA con gradiente continuo. Junto con una infraestructura de preentrenamiento a gran escala basada en el optimizador Muon, WALL-WM proporciona una receta práctica de escalado para WAM de propósito general. Los experimentos muestran que WALL-WM se generaliza ampliamente a través del lenguaje, las escenas y las tareas, logrando un rendimiento de vanguardia en la evaluación de generalización en el mundo real a gran escala.

English

WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.