ChatPaper.aiChatPaper

WALL-WM: Esculpindo a Modelagem de Ação Mundial nas Articulações de Eventos

WALL-WM: Carving World Action Modeling at the Event Joints

June 1, 2026
Autores: Shalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang
cs.AI

Resumo

WALL-WM é um Modelo de Ação Mundial (WAM) que desloca a aprendizagem vídeo-ação de uma otimização centrada em segmentos para um pré-treinamento Visão-Linguagem-Ação (VLA) fundamentado em eventos, utilizando eventos de ação semanticamente coerentes como unidade atômica de aprendizado. WAMs existentes geralmente inicializam a partir de modelos fundamentais multimodais ou de vídeo e, em seguida, otimizam segmentos de ação de comprimento fixo condicionados diretamente à observação e instrução atuais. Embora conveniente, essa formulação centrada em segmentos cria uma incompatibilidade fundamental de granularidade. A linguagem descreve objetivos e eventos semânticos, a visão evolui por meio de dinâmicas contínuas de cena e as ações operam em escalas temporais de nível de controle; forçar todos os três na mesma janela de predição de comprimento fixo transforma o treinamento VLA em um ajuste de correlação de curto horizonte. O WALL-WM aborda essa incompatibilidade organizando tanto a supervisão quanto os dados em torno de eventos semânticos. Especificamente, ele combina o pré-treinamento VLA fundamentado em eventos com um ecossistema de dados construído a partir de legendas em nível de evento e amostragem balanceada por agrupamento, permitindo aprendizado escalável sobre diversos comportamentos, cenas e estruturas de tarefas. A partir do mesmo backbone pré-treinado em eventos, o WALL-WM suporta dois modos de inferência complementares. O modo evento consome descrições do próximo evento e permite segmentos de execução de comprimento variável, enquanto o modo unificado utiliza um VLM com Decodificação em Escada para condicionar a inferência convencional de segmentos de comprimento fixo, preservando um caminho VLA contínuo em gradiente. Em conjunto com a infraestrutura de pré-treinamento em larga escala baseada no otimizador Muon, o WALL-WM fornece uma receita prática de escalonamento para WAMs de propósito geral. Experimentos mostram que o WALL-WM generaliza amplamente entre linguagem, cenas e tarefas, alcançando desempenho de ponta em avaliação de generalização em larga escala no mundo real.
English
WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.