WALL-WM: Esculpindo a Modelagem de Ação Mundial nas Articulações de Eventos

Resumo

WALL-WM é um Modelo de Ação Mundial (WAM) que desloca a aprendizagem vídeo-ação de uma otimização centrada em segmentos para um pré-treinamento Visão-Linguagem-Ação (VLA) fundamentado em eventos, utilizando eventos de ação semanticamente coerentes como unidade atômica de aprendizado. WAMs existentes geralmente inicializam a partir de modelos fundamentais multimodais ou de vídeo e, em seguida, otimizam segmentos de ação de comprimento fixo condicionados diretamente à observação e instrução atuais. Embora conveniente, essa formulação centrada em segmentos cria uma incompatibilidade fundamental de granularidade. A linguagem descreve objetivos e eventos semânticos, a visão evolui por meio de dinâmicas contínuas de cena e as ações operam em escalas temporais de nível de controle; forçar todos os três na mesma janela de predição de comprimento fixo transforma o treinamento VLA em um ajuste de correlação de curto horizonte. O WALL-WM aborda essa incompatibilidade organizando tanto a supervisão quanto os dados em torno de eventos semânticos. Especificamente, ele combina o pré-treinamento VLA fundamentado em eventos com um ecossistema de dados construído a partir de legendas em nível de evento e amostragem balanceada por agrupamento, permitindo aprendizado escalável sobre diversos comportamentos, cenas e estruturas de tarefas. A partir do mesmo backbone pré-treinado em eventos, o WALL-WM suporta dois modos de inferência complementares. O modo evento consome descrições do próximo evento e permite segmentos de execução de comprimento variável, enquanto o modo unificado utiliza um VLM com Decodificação em Escada para condicionar a inferência convencional de segmentos de comprimento fixo, preservando um caminho VLA contínuo em gradiente. Em conjunto com a infraestrutura de pré-treinamento em larga escala baseada no otimizador Muon, o WALL-WM fornece uma receita prática de escalonamento para WAMs de propósito geral. Experimentos mostram que o WALL-WM generaliza amplamente entre linguagem, cenas e tarefas, alcançando desempenho de ponta em avaliação de generalização em larga escala no mundo real.

English

WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.