WALL-WM: Weltaktionsmodellierung an den Ereignisverbindungen
WALL-WM: Carving World Action Modeling at the Event Joints
June 1, 2026
Autoren: Shalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang
cs.AI
Zusammenfassung
WALL-WM ist ein Weltaktionsmodell (World Action Model), das das Video-Aktions-Lernen von einer Chunk-zentrierten Optimierung hin zu einem ereignisbasierten Vision-Language-Action-Pretraining verlagert, wobei semantisch kohärente Aktionsereignisse als atomare Lerneinheit dienen. Bestehende WAMs werden üblicherweise von multimodalen oder Video-Basismodellen initialisiert und optimieren anschließend Aktions-Chunks fester Länge, die direkt von der aktuellen Beobachtung und Instruktion abhängen. Obwohl bequem, erzeugt diese Chunk-zentrierte Formulierung einen grundlegenden Granularitätskonflikt. Sprache beschreibt semantische Ziele und Ereignisse, Vision entwickelt sich durch kontinuierliche Szenendynamiken, und Aktionen operieren auf Zeitskalen der Steuerungsebene; alle drei in dasselbe Vorhersagefenster fester Länge zu zwingen, macht VLA-Training zu einer kurzfristigen Korrelationsanpassung. WALL-WM adressiert diesen Konflikt, indem es sowohl die Überwachung als auch die Daten um semantische Ereignisse herum organisiert. Konkret kombiniert es ereignisbasiertes VLA-Pretraining mit einem Datenökosystem aus Ereignislevel-Beschriftungen und clusterbalanciertem Sampling, was skalierbares Lernen über verschiedene Verhaltensweisen, Szenen und Aufgabenstrukturen hinweg ermöglicht. Ausgehend von derselben ereignisvortrainierten Basis unterstützt WALL-WM zwei komplementäre Inferenzmodi. Der Ereignismodus verarbeitet nächste-Ereignis-Beschreibungen und ermöglicht Aktionsausführungen mit variabler Länge, während der Unified-Modus ein VLM mit Staircase Decoding nutzt, um die konventionelle Chunk-Inferenz fester Länge zu konditionieren und gleichzeitig einen gradientenstetigen VLA-Pfad zu erhalten. Zusammen mit einer auf dem Muon-Optimierer basierenden Großskalen-Pretraining-Infrastruktur bietet WALL-WM ein praktisches Skalierungsrezept für Allzweck-WAMs. Experimente zeigen, dass WALL-WM breit über Sprache, Szenen und Aufgaben generalisiert und in groß angelegten Realwelt-Generalization-Evaluierungen den State-of-the-Art erreicht.
English
WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.