WALL-WM: Het uitsnijden van wereldactiemodellering op de gebeurtenisverbindingen

Samenvatting

WALL-WM is een Wereldactiemodel dat video-actieleren verschuift van chunk-gecentreerde optimalisatie naar gebeurtenisgebaseerde Visie-Taal-Actie (VTA) voortraining, waarbij semantisch samenhangende actiegebeurtenissen als de atomaire leereenheid worden gebruikt. Bestaande WAM's initialiseren doorgaans vanuit multimodale of video-fundatiemodellen en optimaliseren vervolgens actiechunks van vaste lengte, die direct worden geconditioneerd op de huidige waarneming en instructie. Hoewel handig, creëert deze chunk-gecentreerde formulering een fundamentele granulariteitsmismatch. Taal beschrijft semantische doelen en gebeurtenissen, visie evolueert door continue scènedynamiek, en acties opereren op besturingstijdschalen; door alle drie in hetzelfde voorspellingsvenster van vaste lengte te dwingen, wordt VTA-training gereduceerd tot correlatiefitten op korte termijn. WALL-WM pakt deze mismatch aan door zowel supervisie als data rond semantische gebeurtenissen te organiseren. Specifiek combineert het gebeurtenisgebaseerde VTA-voortraining met een data-ecosysteem dat is opgebouwd uit gebeurtenisniveau-onderschriften en clustergebalanceerde sampling, wat schaalbaar leren over diverse gedragingen, scènes en taakstructuren mogelijk maakt. Vanuit dezelfde gebeurtenis-voortrainde backbone ondersteunt WALL-WM twee complementaire inferentiemodi. De gebeurtenismodus verbruikt volgende-gebeurtenisbeschrijvingen en maakt uitvoeringschunks van variabele lengte mogelijk, terwijl de uniforme modus een VLM met Staircase Decoding gebruikt om conventionele chunk-inferentie van vaste lengte te conditioneren, terwijl een gradiëntcontinu VTA-pad behouden blijft. Samen met op Muon-optimizer gebaseerde grootschalige voortrainingsinfrastructuur biedt WALL-WM een praktisch opschalingsrecept voor algemeen bruikbare WAM's. Experimenten tonen aan dat WALL-WM breed generaliseert over taal, scènes en taken, en een state-of-the-art prestatie levert in grootschalige generalisatie-evaluatie in de echte wereld.

English

WALL-WM is a World Action Model that shifts video-action learning from chunk-centric optimization to event-grounded Vision-Language-Action pretraining, using semantically coherent action events as the atomic unit of learning. Existing WAMs commonly initialize from multimodal or video foundation models and then optimize fixed-length action chunks conditioned directly on the current observation and instruction. Although convenient, this chunk-centric formulation creates a fundamental granularity mismatch. Language describes semantic goals and events, vision evolves through continuous scene dynamics, and actions operate at control-level timescales; forcing all three into the same fixed-length prediction window turns VLA training into short-horizon correlation fitting. WALL-WM addresses this mismatch by organizing both supervision and data around semantic events. Specifically, it pairs event-grounded VLA pretraining with a data ecosystem built from event-level captions and cluster-balanced sampling, enabling scalable learning over diverse behaviors, scenes, and task structures. From the same event-pretrained backbone, WALL-WM supports two complementary inference modes. The event mode consumes next-event descriptions and enables variable-length execution chunks, while the unified mode uses a VLM with Staircase Decoding to condition conventional fixed-length chunk inference while preserving a gradient-continuous VLA path. Together with Muon-optimizer-based large-scale pretraining infrastructure, WALL-WM provides a practical scale-up recipe for general-purpose WAMs. Experiments show that WALL-WM generalizes broadly across language, scenes, and tasks, achieving state-of-the-art performance in large-scale real-world generalization evaluation.