WALL-WM : Sculpter la modélisation des actions du monde aux jonctions d'événements

Résumé

WALL-WM est un Modèle d'Action Mondial (WAM) qui fait passer l'apprentissage vidéo-action d'une optimisation centrée sur les chunks à un pré-apprentissage Vision-Langage-Action (VLA) ancré sur les événements, en utilisant des événements d'action sémantiquement cohérents comme unité atomique d'apprentissage. Les WAM existants s'initialisent généralement à partir de modèles de base multimodaux ou vidéo, puis optimisent des chunks d'action de longueur fixe conditionnés directement sur l'observation et l'instruction courantes. Bien que pratique, cette formulation centrée sur les chunks crée un décalage fondamental de granularité. Le langage décrit des objectifs et événements sémantiques, la vision évolue à travers des dynamiques de scène continues, et les actions opèrent à des échelles de temps de contrôle ; forcer ces trois modalités dans la même fenêtre de prédiction de longueur fixe transforme l'entraînement VLA en un ajustement de corrélations à courte portée. WALL-WM remédie à ce décalage en organisant à la fois la supervision et les données autour d'événements sémantiques. Plus précisément, il associe un pré-apprentissage VLA ancré sur les événements à un écosystème de données construit à partir de légendes au niveau des événements et d'un échantillonnage équilibré par clusters, permettant un apprentissage scalable sur divers comportements, scènes et structures de tâches. À partir de la même architecture de base pré-entraînée sur les événements, WALL-WM prend en charge deux modes d'inférence complémentaires. Le mode événement consomme les descriptions du prochain événement et permet des chunks d'exécution de longueur variable, tandis que le mode unifié utilise un VLM avec Staircase Decoding pour conditionner l'inférence conventionnelle de chunks de longueur fixe tout en préservant un chemin VLA continu en gradient. En conjonction avec une infrastructure de pré-apprentissage à grande échelle basée sur l'optimiseur Muon, WALL-WM fournit une recette pratique de passage à l'échelle pour les WAM à usage général. Les expériences montrent que WALL-WM généralise largement à travers le langage, les scènes et les tâches, atteignant des performances de pointe dans une évaluation de généralisation à grande échelle en conditions réelles.

English

WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.