ChatPaper.aiChatPaper

WALL-WM: Het uitsnijden van wereldactiemodellering op de gebeurtenisverbindingen

WALL-WM: Carving World Action Modeling at the Event Joints

June 1, 2026
Auteurs: Shalfun Li, Victor Yao, Charles Yang, Truth Qu, Regis Cheng, Ryan Yu, Howard Lu, Newton Von, Vincent Chen, Yohann Tang, Maeve Zhang, Ellie Ma, Gody Li, Sage Yang, Lorien Shu, J. W. Gao, Ethan Chen, Colin Ye, Yu Sun, Elise Mon, PS Zhang, Neo Li, Lily Li, James Wang, Ping Yang, Chris Pan, Lucy Liang, Hang Su, Roy Gan, Hao Wang, Qian Wang
cs.AI

Samenvatting

WALL-WM is een Wereldactiemodel dat video-actieleren verschuift van chunk-gecentreerde optimalisatie naar gebeurtenisgebaseerde Visie-Taal-Actie (VTA) voortraining, waarbij semantisch samenhangende actiegebeurtenissen als de atomaire leereenheid worden gebruikt. Bestaande WAM's initialiseren doorgaans vanuit multimodale of video-fundatiemodellen en optimaliseren vervolgens actiechunks van vaste lengte, die direct worden geconditioneerd op de huidige waarneming en instructie. Hoewel handig, creëert deze chunk-gecentreerde formulering een fundamentele granulariteitsmismatch. Taal beschrijft semantische doelen en gebeurtenissen, visie evolueert door continue scènedynamiek, en acties opereren op besturingstijdschalen; door alle drie in hetzelfde voorspellingsvenster van vaste lengte te dwingen, wordt VTA-training gereduceerd tot correlatiefitten op korte termijn. WALL-WM pakt deze mismatch aan door zowel supervisie als data rond semantische gebeurtenissen te organiseren. Specifiek combineert het gebeurtenisgebaseerde VTA-voortraining met een data-ecosysteem dat is opgebouwd uit gebeurtenisniveau-onderschriften en clustergebalanceerde sampling, wat schaalbaar leren over diverse gedragingen, scènes en taakstructuren mogelijk maakt. Vanuit dezelfde gebeurtenis-voortrainde backbone ondersteunt WALL-WM twee complementaire inferentiemodi. De gebeurtenismodus verbruikt volgende-gebeurtenisbeschrijvingen en maakt uitvoeringschunks van variabele lengte mogelijk, terwijl de uniforme modus een VLM met Staircase Decoding gebruikt om conventionele chunk-inferentie van vaste lengte te conditioneren, terwijl een gradiëntcontinu VTA-pad behouden blijft. Samen met op Muon-optimizer gebaseerde grootschalige voortrainingsinfrastructuur biedt WALL-WM een praktisch opschalingsrecept voor algemeen bruikbare WAM's. Experimenten tonen aan dat WALL-WM breed generaliseert over taal, scènes en taken, en een state-of-the-art prestatie levert in grootschalige generalisatie-evaluatie in de echte wereld.
English
WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.