WALL-WM: Weltaktionsmodellierung an den Ereignisverbindungen

Zusammenfassung

WALL-WM ist ein Weltaktionsmodell (World Action Model), das das Video-Aktions-Lernen von einer Chunk-zentrierten Optimierung hin zu einem ereignisbasierten Vision-Language-Action-Pretraining verlagert, wobei semantisch kohärente Aktionsereignisse als atomare Lerneinheit dienen. Bestehende WAMs werden üblicherweise von multimodalen oder Video-Basismodellen initialisiert und optimieren anschließend Aktions-Chunks fester Länge, die direkt von der aktuellen Beobachtung und Instruktion abhängen. Obwohl bequem, erzeugt diese Chunk-zentrierte Formulierung einen grundlegenden Granularitätskonflikt. Sprache beschreibt semantische Ziele und Ereignisse, Vision entwickelt sich durch kontinuierliche Szenendynamiken, und Aktionen operieren auf Zeitskalen der Steuerungsebene; alle drei in dasselbe Vorhersagefenster fester Länge zu zwingen, macht VLA-Training zu einer kurzfristigen Korrelationsanpassung. WALL-WM adressiert diesen Konflikt, indem es sowohl die Überwachung als auch die Daten um semantische Ereignisse herum organisiert. Konkret kombiniert es ereignisbasiertes VLA-Pretraining mit einem Datenökosystem aus Ereignislevel-Beschriftungen und clusterbalanciertem Sampling, was skalierbares Lernen über verschiedene Verhaltensweisen, Szenen und Aufgabenstrukturen hinweg ermöglicht. Ausgehend von derselben ereignisvortrainierten Basis unterstützt WALL-WM zwei komplementäre Inferenzmodi. Der Ereignismodus verarbeitet nächste-Ereignis-Beschreibungen und ermöglicht Aktionsausführungen mit variabler Länge, während der Unified-Modus ein VLM mit Staircase Decoding nutzt, um die konventionelle Chunk-Inferenz fester Länge zu konditionieren und gleichzeitig einen gradientenstetigen VLA-Pfad zu erhalten. Zusammen mit einer auf dem Muon-Optimierer basierenden Großskalen-Pretraining-Infrastruktur bietet WALL-WM ein praktisches Skalierungsrezept für Allzweck-WAMs. Experimente zeigen, dass WALL-WM breit über Sprache, Szenen und Aufgaben generalisiert und in groß angelegten Realwelt-Generalization-Evaluierungen den State-of-the-Art erreicht.

English

WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.